Как стать автором
Обновить

Комментарии 5

Спасибо за статью. Есть несколько вопросов:

  1. Какая модель у вас в Greenplum? 3NF, DataVault?

  2. Вы через AirFlow грузите только неструктурированные данные? Почему нет потока структурированных данных в GP напрямую?

  3. Не совсем понял как вы используете NiFi. Правильно ли я понимаю, что он используются для тех источников, которые нельзя подключить к Debezium?

  4. В DataLake у вас какие-нибудь зоны? Или это просто хранение сырых данных?

Спасибо за вопросы

1. Зависит от способа проектирования в конкретном проекте. Типового решения не делалось, но на гринпламе можно реализовывать и то и другое
2. Через Airflow неструктурированные обычно попадают в HDFS, структурированные можно писать напрямую в Greenplum
3. NiFi используется как достаточно мощный инструмент для отправки потока данных в кафку из большого количества источников, в принципе там точно так же можно сделать что-то вроде CDC, как и в Debezium
4. Только сырые данные, все остальное в Greenplum. Конечно можно попробовать и другие варианты, но пока не пробовали

"

Greenplum — кластеризуемое решение, основанное на свободной объектно-реляционной СУБД PostgreSQL. Это значит, что хранилище может без потери производительности вертикально кластеризовать сколько угодно. А стало быть, в перспективе — хранить огромные объемы структурированных данных.

"

Простите, но вам не кажется что вы только что придумали какой-то не непонятный термин вместо устоявшегося "горизонтального масштабирования"?

Что такое вертикально кластеризировать? Вертикально это когда вы на сегмент хост начнете ресурсов накидывать в виде CPU и RAM. Но вы ведь наверняка не это имели ввиду.

Термин не новый, не мы его придумали :-) Например, вот — https://www.ibm.com/docs/ru/ram/7.5.3?topic=planning-websphere-application-server-clusters

Другое дело, что тут правильнее употребить предложенный вами вариант. Внесли исправление, спасибо!

Вы просто нагуглили первую ссылку под свою версию ))

какое отношение application server может иметь к аналитической системе массивных параллельных вычислений? )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий