grichik Jun 9 2022 at 23:28

Автогенерация ETL-кода

16 min

3.2K

Сбер corporate blogProgramming*SQL*Data Engineering*

Comments 5

KlimenkoIv Jun 10 2022 at 00:15

Очень круто все выглядит. Немного непонятно, указанные продукты (GUI, генераторы) - ваши внутренние разработки или есть готовые продукты?

Также не совсем понятно, кто является конечным потребителем кода, какой сервис/система выполняет в итоге работу?

grichik Jun 10 2022 at 00:45

Язык SMTL, GUI, фреймворк на Java и генераторы - внутренняя разработка. Spec-to-graph - внешний продукт, который может быть заменён на что-либо другое. Элементарные операции и тест-кейсы к ним разработаны, так что пересесть при необходимости на какую-либо другую платформу - посильная задача.

Что касается потребителя: сгенерированный граф запускается из контрольного механизма shell-скриптом в кластерном режиме на нодах Hadoop, результаты складываются в HDFS и подхватываются ещё одним процессом (loader), которые опять-таки в кластерном режиме складывает данные в Hive.

KlimenkoIv Jun 10 2022 at 01:01

Спасибо. Сколько лет вам понадобилось для обкатки технологии и окончательного оформления? Не планируете выставить в виде сервиса?

В данный момент тоже задумываемся об автоматизации задач анализа источников и дальнейшей загрузки. У нас сначала аналитик напишет S2t табличку, потом я делаю stage слой и реализую загрузку из источников с помощью NIFI, дальше подключаются разработчики БД - из stage формируют RDV и витрины. Автоматизируем потихоньку, но общего, чтобы от источника и до витрины, пока не создали.

grichik Jun 10 2022 at 01:25

Работы над этим решением имели разную интенсивность и ведутся около 4 лет. В виде сервиса у нас оформлен сервис метаданных (о модели данных, к которой обращается SMTL), остальное посмотрим по ситуации.

Geckelberryfinn Jun 10 2022 at 01:31

Писали аналогичное на DataStage в 2011 году, там использовали просто зависимости между таблицами и описание этапов. Все в XML. В каждой сущности описывали этапы: mapping, удаление дубликатов, генерацию суррагатных ключей по функции или по полям, загрузку в DWH. Потом даже навернули Xslt поверх этого.

Но все это прошлый век, в спарке это намного круче делается. Учитывая бедный параллелизм у информатики (но богатый у DataStage).