Comments 5
Спасибо за статью. Есть несколько вопросов:
Какая модель у вас в Greenplum? 3NF, DataVault?
Вы через AirFlow грузите только неструктурированные данные? Почему нет потока структурированных данных в GP напрямую?
Не совсем понял как вы используете NiFi. Правильно ли я понимаю, что он используются для тех источников, которые нельзя подключить к Debezium?
В DataLake у вас какие-нибудь зоны? Или это просто хранение сырых данных?
Спасибо за вопросы
1. Зависит от способа проектирования в конкретном проекте. Типового решения не делалось, но на гринпламе можно реализовывать и то и другое
2. Через Airflow неструктурированные обычно попадают в HDFS, структурированные можно писать напрямую в Greenplum
3. NiFi используется как достаточно мощный инструмент для отправки потока данных в кафку из большого количества источников, в принципе там точно так же можно сделать что-то вроде CDC, как и в Debezium
4. Только сырые данные, все остальное в Greenplum. Конечно можно попробовать и другие варианты, но пока не пробовали
"
Greenplum — кластеризуемое решение, основанное на свободной объектно-реляционной СУБД PostgreSQL. Это значит, что хранилище может без потери производительности вертикально кластеризовать сколько угодно. А стало быть, в перспективе — хранить огромные объемы структурированных данных.
"
Простите, но вам не кажется что вы только что придумали какой-то не непонятный термин вместо устоявшегося "горизонтального масштабирования"?
Что такое вертикально кластеризировать? Вертикально это когда вы на сегмент хост начнете ресурсов накидывать в виде CPU и RAM. Но вы ведь наверняка не это имели ввиду.
Термин не новый, не мы его придумали :-) Например, вот — https://www.ibm.com/docs/ru/ram/7.5.3?topic=planning-websphere-application-server-clusters
Другое дело, что тут правильнее употребить предложенный вами вариант. Внесли исправление, спасибо!
Как собрать платформу обработки данных «своими руками»?