All streams
Search
Write a publication
Pull to refresh
22
0
Килинский Михаил @Kilinsky_MA

User

Send message

Подскажите, airflow не тормозит с 1000 дагов? Как оптимизировали file processing для ямлов?

Это уже наверное запрос на отдельную статью)
За поставку данных в брокеры отвечают сервисы компании, мы выступаем больше как потребители. Со своей стороны при потреблении данных мы гарантируем at-least-once семантику доставки сообщений в Datalake и Data Vault.

Железо пока позволяет хранить всю историю для большинства топиков. Но в целом конечно не предполагается, что данные будут вечно храниться в брокерах, поэтому приземляем их в Datalake, чтобы всегда иметь доступ к истории. Также для отдельных особенно больших топиков срок жизни сообщений сокращенный, как раз в рамках недели.

Да, мы рассматривали возможность использлования Schema Registry, у него действительно много преимуществ при работе с kafka, но он не очень ложился в уже сложившуюся архитектуру нашего ESB, поэтому пока не применяем его.

Большое спасибо за дополнение, вы все верно описали по функциональности слоев.

Статья про опыт внедрения hadoop и гибкие методологии хранения данных, а не про специфику ms sql.

В yarn для управления ресурсами есть гибкая система очередей, мы держим её в уме на будущее, но пока не утилизируем все 100% нашего кластера.

Airflow выступает в качестве шедулера, возможно по схеме не совсем понятно.

Про верхний Spark вы правы, это стриминг для чтения из очередей. Airflow у нас также используется как шедулер для запуска batch процессов по переносу данных из hadoop в слой data vault.

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

Database Developer, Database Architect
Lead