Это уже наверное запрос на отдельную статью) За поставку данных в брокеры отвечают сервисы компании, мы выступаем больше как потребители. Со своей стороны при потреблении данных мы гарантируем at-least-once семантику доставки сообщений в Datalake и Data Vault.
Железо пока позволяет хранить всю историю для большинства топиков. Но в целом конечно не предполагается, что данные будут вечно храниться в брокерах, поэтому приземляем их в Datalake, чтобы всегда иметь доступ к истории. Также для отдельных особенно больших топиков срок жизни сообщений сокращенный, как раз в рамках недели.
Да, мы рассматривали возможность использлования Schema Registry, у него действительно много преимуществ при работе с kafka, но он не очень ложился в уже сложившуюся архитектуру нашего ESB, поэтому пока не применяем его.
Про верхний Spark вы правы, это стриминг для чтения из очередей. Airflow у нас также используется как шедулер для запуска batch процессов по переносу данных из hadoop в слой data vault.
Благодарю за подробный ответ
Подскажите, airflow не тормозит с 1000 дагов? Как оптимизировали file processing для ямлов?
Это уже наверное запрос на отдельную статью)
За поставку данных в брокеры отвечают сервисы компании, мы выступаем больше как потребители. Со своей стороны при потреблении данных мы гарантируем at-least-once семантику доставки сообщений в Datalake и Data Vault.
Железо пока позволяет хранить всю историю для большинства топиков. Но в целом конечно не предполагается, что данные будут вечно храниться в брокерах, поэтому приземляем их в Datalake, чтобы всегда иметь доступ к истории. Также для отдельных особенно больших топиков срок жизни сообщений сокращенный, как раз в рамках недели.
Да, мы рассматривали возможность использлования Schema Registry, у него действительно много преимуществ при работе с kafka, но он не очень ложился в уже сложившуюся архитектуру нашего ESB, поэтому пока не применяем его.
Большое спасибо за дополнение, вы все верно описали по функциональности слоев.
Статья про опыт внедрения hadoop и гибкие методологии хранения данных, а не про специфику ms sql.
В yarn для управления ресурсами есть гибкая система очередей, мы держим её в уме на будущее, но пока не утилизируем все 100% нашего кластера.
Airflow выступает в качестве шедулера, возможно по схеме не совсем понятно.
Про верхний Spark вы правы, это стриминг для чтения из очередей. Airflow у нас также используется как шедулер для запуска batch процессов по переносу данных из hadoop в слой data vault.