Comments / Profile of Volian / Habr

Дмитрий @Volian

User

ProfileArticles2PostsNewsComments3

Краткий обзор платформы данных Т-Банка

Volian Jul 14 at 08:52

Подрядчики еще есть? Или 230 это реально все?

На текущий момент мы подрядчиков не используем

Look

Краткий обзор платформы данных Т-Банка

Volian Jul 14 at 08:36

Спасибо за отзыв :)

а какой у вас максимальный объём данных хранится в одном кластере Greenplum?

Общий объём дисков самого большого ГП - 4 ПБ. Учитывая фактор репликации, полезный объём данных на текущий момент ± 1.6 ПБ

И какая там схема данных в детальном слое: 3nf, data vault, что-то другое?

Исторически самый первый детальный слой был в 3NF, но со временем мы начали отходить от самых строгих правил 3NF для удобства пользователей.

Позднее мы сделали слой Data Vault ниже первого детального слоя для нормализации данных, но там тоже есть отличия от классического Data Vault, например, мы не всегда создаём хабы. Если эта тема интересна, может когда-нибудь напишем об этом отдельную статью. Там всё довольно сложно

Look

Краткий обзор платформы данных Т-Банка

Volian Jul 11 at 12:01

Вопросы только приветствуются :) Либо отвечу сам, либо привлеку коллег, которые смогут раскрыть конкретную тему подробнее

1) сколько сегментов и ядер в самом большом GP-кластере ?

144 логических сегмента, 72 сегмент-сервера (2 primary per node) и в общей сложности около 9000 CPU Threads

2) Сколько людей в команде(ах), которые эту T Data Platform разрабатывают, внедряют и суппортят ?

Конкретно разработкой, внедрением и поддержкой T Data Platform как IT решения занимаются ± 230 человек.
Это число не включает инженеров данных, которые непосредственно разрабатывают ETL пайплайны для бизнеса (еще несколько сотен человек), и коллег, которые занимаются распространением правильных практиками работы с данными (± 85 человек)

Look

Information

Specialization