@DmitriiReshetnikov16 янв в 21:03

Создание ETL-движка для репликации данных из Apache Hive в Clickhouse

Средний

5 мин

2.2K

Big Data * Data Engineering * Python *

Комментарии 11

@ssmaslov 17 янв в 05:31

Почему нельзя было использовать один из стандартных движков? Из описания выглядит как наколеночная поделка ради поделки. Про текстовые параметры подключения которые куда то вводятся и сохраняются... Если я правильно понял о чем это, так же просто нельзя делать...

@DmitriiReshetnikov 17 янв в 06:57

Моя практика показывает, что все существующие движки клика далеки от совершенства

@miksoft 17 янв в 16:07

"один из стандартных движков "

А можно пример?
Мне в голову кроме Informatica и dbt больше ничего не приходит.

@Ver_P 17 янв в 06:54

Ух ты). Опять помесь гпт с бредом студента для набора текста для реферата. Как настроить хабр, чтобы уведомления о новых "статьях" этого автора не приходили?

@DmitriiReshetnikov 17 янв в 06:56

Ну раз вы так активно пишите гневные комментарии, хотя бы тут, попробуйте свою позицию хоть чуть-чуть аргументировать

@QtRoS 17 янв в 15:41

А вы как автор статьи отрицаете, что она сгенерирована нейронкой?

И независимо от этого вопроса, хотелось бы понять ваши мотивы публикации такого материала. Напоминает "тени на стене пещеры" Платона, описание кода без самого кода...

@Ver_P 23 янв в 08:26

давайте по аргументам:

Оформление – посмотрите, как оформляют статьи. Это огромный труд. Нельзя писать абзац на 100500 строк, в котором всё смешано и люди, и кони.,

Код – пишите про «движок», а код то где? Ни примеров в статье, ни ссылки на гитхаб.

Движок – исходя из текста Вы используете Jupyter Notebook и поверх виджеты ipywidgets для ввода параметров, чтобы в коде не писать их (хз что мешает пользователям заполнить эти параметры в коде, учитывая то, что они и так открывают ноутбук), а потом отправляете этот единственный даг в Airflow, то есть используете огромный ETL оркестратор потоков в роли планировщика для запуска одного дага :) даже не знаю как комментировать такой «движок»-генератор дага. Получается Вы забиваете гвоздь микроскопом :) чем например крон хуже в роли планировщика?
Производительность – когда читаешь название статьи предполагаешь, что будет какое-то особое решение по переносу данных. Нет информации по объему данных, скорости обработки, частоте обновления, сравнению с другими решениями и тд. Сколько ресурсов у Вас уходит на поддержание этой инфраструктуры? В целом чем Ваш «движок» хорош-то?

Резюме: статья написана не о etl-движке, а о какой-то форме генератора дага для запуска в airflow по расписанию. А может всё неправильно понял, так как без примеров кода не понятно, о чем вообще Вы пишите.

@YAKOROLEVAZAMKA 17 янв в 07:37

а где сам движок, описание классов, хотя бы ссылка на гитхаб?

сделать import hive, clickhouse_connect, pd.read_sql(), insert_dataframe() можно без всего вышеперечисленного, нужен только py-файл и cron

@andrey_dvin 19 янв в 11:28

pd.read_sql(), insert_dataframe() тоже с большой долей вероятности не нужны. большую часть трансформаций всеже можно внутри бд сделать.

@YAKOROLEVAZAMKA 19 янв в 12:39

Hive это не бд, это движок позволяющий работать со структурированными файлами как с таблицами - писать к ним sql-запросы

Т.е. сама суть статьи это как взять файл и записать его в CH (а не как подключить файл внутри CH в качестве источника)

@drno-reg 18 янв в 20:02

Любопытно было бы вгзлянуть на реализацию, не думали выложить код в githib/gitverse ?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий