ITSumma Jul 28 2022 at 11:06

Как собрать платформу обработки данных «своими руками»?

5 min

11K

ITSumma corporate blogApache*Big Data*DIYData Engineering*

+30

Comments 5

GTS Jul 29 2022 at 10:20

Спасибо за статью. Есть несколько вопросов:

Какая модель у вас в Greenplum? 3NF, DataVault?
Вы через AirFlow грузите только неструктурированные данные? Почему нет потока структурированных данных в GP напрямую?
Не совсем понял как вы используете NiFi. Правильно ли я понимаю, что он используются для тех источников, которые нельзя подключить к Debezium?
В DataLake у вас какие-нибудь зоны? Или это просто хранение сырых данных?

IvanKhozyainov Aug 1 2022 at 22:01

Спасибо за вопросы

1. Зависит от способа проектирования в конкретном проекте. Типового решения не делалось, но на гринпламе можно реализовывать и то и другое
2. Через Airflow неструктурированные обычно попадают в HDFS, структурированные можно писать напрямую в Greenplum
3. NiFi используется как достаточно мощный инструмент для отправки потока данных в кафку из большого количества источников, в принципе там точно так же можно сделать что-то вроде CDC, как и в Debezium
4. Только сырые данные, все остальное в Greenplum. Конечно можно попробовать и другие варианты, но пока не пробовали

EvgenyVilkov Aug 3 2022 at 15:27

Greenplum — кластеризуемое решение, основанное на свободной объектно-реляционной СУБД PostgreSQL. Это значит, что хранилище может без потери производительности вертикально кластеризовать сколько угодно. А стало быть, в перспективе — хранить огромные объемы структурированных данных.

Простите, но вам не кажется что вы только что придумали какой-то не непонятный термин вместо устоявшегося "горизонтального масштабирования"?

Что такое вертикально кластеризировать? Вертикально это когда вы на сегмент хост начнете ресурсов накидывать в виде CPU и RAM. Но вы ведь наверняка не это имели ввиду.

ITSumma Aug 4 2022 at 08:13

Термин не новый, не мы его придумали :-) Например, вот — https://www.ibm.com/docs/ru/ram/7.5.3?topic=planning-websphere-application-server-clusters

Другое дело, что тут правильнее употребить предложенный вами вариант. Внесли исправление, спасибо!

EvgenyVilkov Aug 4 2022 at 16:03

Вы просто нагуглили первую ссылку под свою версию ))

какое отношение application server может иметь к аналитической системе массивных параллельных вычислений? )