Comments / Profile of Kilinsky

Килинский Михаил @Kilinsky_MA

User

ProfileArticles1PostsNewsComments10

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Kilinsky_MA Feb 20 at 11:12

Благодарю за подробный ответ

Look

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Kilinsky_MA Feb 19 at 16:32

Подскажите, airflow не тормозит с 1000 дагов? Как оптимизировали file processing для ямлов?

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Feb 10 at 17:57

Это уже наверное запрос на отдельную статью)
За поставку данных в брокеры отвечают сервисы компании, мы выступаем больше как потребители. Со своей стороны при потреблении данных мы гарантируем at-least-once семантику доставки сообщений в Datalake и Data Vault.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Feb 6 at 15:15

Железо пока позволяет хранить всю историю для большинства топиков. Но в целом конечно не предполагается, что данные будут вечно храниться в брокерах, поэтому приземляем их в Datalake, чтобы всегда иметь доступ к истории. Также для отдельных особенно больших топиков срок жизни сообщений сокращенный, как раз в рамках недели.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Feb 6 at 09:48

Да, мы рассматривали возможность использлования Schema Registry, у него действительно много преимуществ при работе с kafka, но он не очень ложился в уже сложившуюся архитектуру нашего ESB, поэтому пока не применяем его.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Feb 3 at 17:52

Большое спасибо за дополнение, вы все верно описали по функциональности слоев.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Jan 30 at 06:56

Статья про опыт внедрения hadoop и гибкие методологии хранения данных, а не про специфику ms sql.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Jan 30 at 06:54

В yarn для управления ресурсами есть гибкая система очередей, мы держим её в уме на будущее, но пока не утилизируем все 100% нашего кластера.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Jan 27 at 15:39

Airflow выступает в качестве шедулера, возможно по схеме не совсем понятно.

Look

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Kilinsky_MA Jan 27 at 14:35

Про верхний Spark вы правы, это стриминг для чтения из очередей. Airflow у нас также используется как шедулер для запуска batch процессов по переносу данных из hadoop в слой data vault.

Look

Information

Specialization