а какой у вас максимальный объём данных хранится в одном кластере Greenplum?
Общий объём дисков самого большого ГП - 4 ПБ. Учитывая фактор репликации, полезный объём данных на текущий момент ± 1.6 ПБ
И какая там схема данных в детальном слое: 3nf, data vault, что-то другое?
Исторически самый первый детальный слой был в 3NF, но со временем мы начали отходить от самых строгих правил 3NF для удобства пользователей.
Позднее мы сделали слой Data Vault ниже первого детального слоя для нормализации данных, но там тоже есть отличия от классического Data Vault, например, мы не всегда создаём хабы. Если эта тема интересна, может когда-нибудь напишем об этом отдельную статью. Там всё довольно сложно
Вопросы только приветствуются :) Либо отвечу сам, либо привлеку коллег, которые смогут раскрыть конкретную тему подробнее
1) сколько сегментов и ядер в самом большом GP-кластере ?
144 логических сегмента, 72 сегмент-сервера (2 primary per node) и в общей сложности около 9000 CPU Threads
2) Сколько людей в команде(ах), которые эту T Data Platform разрабатывают, внедряют и суппортят ?
Конкретно разработкой, внедрением и поддержкой T Data Platform как IT решения занимаются ± 230 человек. Это число не включает инженеров данных, которые непосредственно разрабатывают ETL пайплайны для бизнеса (еще несколько сотен человек), и коллег, которые занимаются распространением правильных практиками работы с данными (± 85 человек)
На текущий момент мы подрядчиков не используем
Спасибо за отзыв :)
Общий объём дисков самого большого ГП - 4 ПБ. Учитывая фактор репликации, полезный объём данных на текущий момент ± 1.6 ПБ
Исторически самый первый детальный слой был в 3NF, но со временем мы начали отходить от самых строгих правил 3NF для удобства пользователей.
Позднее мы сделали слой Data Vault ниже первого детального слоя для нормализации данных, но там тоже есть отличия от классического Data Vault, например, мы не всегда создаём хабы. Если эта тема интересна, может когда-нибудь напишем об этом отдельную статью. Там всё довольно сложно
Вопросы только приветствуются :) Либо отвечу сам, либо привлеку коллег, которые смогут раскрыть конкретную тему подробнее
144 логических сегмента, 72 сегмент-сервера (2 primary per node) и в общей сложности около 9000 CPU Threads
Конкретно разработкой, внедрением и поддержкой T Data Platform как IT решения занимаются ± 230 человек.
Это число не включает инженеров данных, которые непосредственно разрабатывают ETL пайплайны для бизнеса (еще несколько сотен человек), и коллег, которые занимаются распространением правильных практиками работы с данными (± 85 человек)