kapustor Oct 13 2015 at 11:09

Greenplum DB

17 min

164K

TINKOFF corporate blogPostgreSQL*Big Data*

+15

Comments 31

ketrin7 Oct 13 2015 at 12:05

17 фераля 2015 года Pivotal заявили, что в ближайшем будущем Greenplum станет open source проектом, войдя в Big Data Product Suite.

Отлично

0x0FFF Oct 13 2015 at 15:25

На текущий момент перевод Greenplum в open source планируется выполнить в последних числах октября

В целом по статье одно замечание — Primary и Mirror синхронизируются не через WAL, а с помощью кастомной синхронной репликации на уровне файлов. Именно поэтому возможно переключение на Mirror в режиме online — благодаря синхронной репликации зеркало будет гарантированно содержать ту же информацию. И именно поэтому производительность падает при выпадании одного сегмента из пары — пресловутый WAL начинает писаться в полном объеме

А касательно фич новых PostgreSQL — работы по их бэкпорту ведутся полным ходом. Будет и jsonb, и hstore, и anonymous code blocks, и еще много всего. Пока релиз GPDB 5.0 планируется на первую половину следующего года

samokhvalov Oct 15 2015 at 20:04

Было бы очень хорошо с их стороны сдержать обещание, невзирая на недавнюю мегасделку.

SOLON7 Oct 13 2015 at 17:09

Что у вас в банке используется для етл процессинга, и какой би инструмент используется? если сравнить с тем Sql server 2014(колоночные индексы) то что лучше? По производительности?

kapustor Oct 13 2015 at 17:52

Для ETL используется SAS DI, подробней про нашу интеграцию SAS с GP можно прочитать тут.
Для BI используется SAP BO.
SQL Server мы не используем, не могу судить о производительности.

sutasu Oct 13 2015 at 17:22

Date Warehouse у вас классическая dimensional model, как у Кимбалла, или какая-нибудь хитрая вариация?

kapustor Oct 13 2015 at 18:16

Модель скорее гибридная. Сказываются корни SAS Detail Data Store for Banking, чья модель была взята за основу и переработана.

sutasu Oct 14 2015 at 09:49

Спасибо! Было бы интересно увидеть теоретическую статью на эту тему :)

yusman Oct 24 2015 at 13:10

Отличная и содержательная статья. Спасибо. Буквально недавно начал тестировать и изучать эту СУБД и взахлеб читаю гайды по ней.

0x0FFF Oct 30 2015 at 13:02

Как раз самое время начать сейчас, когда исходный код был открыт: link
И не просто открыт, они мигрировали в github историю всех 23к коммитов начиная с форка Postgres

SanSYS Nov 1 2016 at 20:19

Есть что добавить спустя год?

kapustor Nov 10 2016 at 15:45

Скорее нет, чем да. Серьёзных происшествий не было (т-т-т), найдено пара багов, отправлены в саппорт и уже даже исправлены в новой (4.3.10) версии. Установили во все сервера продуктовых кластеров PCI-SSD диски, вынесли туда некоторые особо критичные к скорости таблицы и ворк-схемы SAS-джобов. Готовимся к очередному экспанду (упираемся и в место на кластере, и в производительность).

SanSYS Oct 31 2017 at 20:56

Есть что добавить спустя год?

kapustor Nov 13 2017 at 18:55

Виден системный подход к комментированию :)
Да, и добавить есть много чего, информации слишком много для одного комментария:

Greenplum теперь полноценный Open-source дистрибутив, 09.2017 был первый OS-релиз 5.0.0 (сейчас уже 5.1.0 + через пару дней будет 5.2.0 + появились первые наброски 6.0.0);
в 5.0.0 появилось очень много нового: новый способ взаимодействия с Hadoop (Hive, HDFS), новый SPARK-коннектор, много новых фич (dblink, Anonymous blocks и т.д.);
По части эксплуатации системы в Тинькофф могу сказать, что до июля 2017-го года GP показывал себя хорошо и каких либо эксцессов не было, после чего я начал работу в другой компании — Arenadata. Мы разрабатываем, внедряем и поддерживаем свой корпоративный дистрибутив Greenplum с учётом уже имеющихся best practices.

SanSYS Oct 30 2018 at 21:32

Есть что добавить спустя год?

kapustor Mar 11 2019 at 18:40

А вы точно не бот?)
На самом деле очень много что появилось и изменилось, но если по верхам:

Готовится к выходу Greenplum 6 — Postgres версии 9.4, Replicated-таблицы, новый алгоритм хеширования, новый сетевой протокол и ещё куча новых фич
В нашем дистрибутиве Greenplum — Arenadata DB — добавлена (и уже работает у наших заказчиков) компрессия ZSTD — arenadata.tech/products/db
Наша же команда реализовала графический инсталятор для open-source data-сервисов — Arenadata Cluster Manager, и первым продуктом в нём конечно же стал Greenplum — docs.arenadata.io/adb/install/adcm/ru/index.html
Присоединяйтесь в чат Greenplum Russia, почти все экплуатанты Greenplum в России сидят там, стараемся помогать друг другу — t.me/greenplum_russia

SanSYS Oct 29 2019 at 21:16

Есть что добавить спустя год?

kapustor Nov 11 2019 at 13:44

Каааак?? Как вы это делаете? :)
Вышел Greenplum 6 — только что опубликовал статью про новые фичи.
А так всё прекрасно, Greenplum в России становится всё больше и это очень приятно.

alekciy Nov 17 2019 at 10:56

А что, даже если и бот, то с подачи SanSYS этот тред читать очень интересно. Видна динамика прямо по годам.

SanSYS Oct 28 2020 at 07:02

Есть что добавить спустя год?

kapustor Oct 28 2020 at 11:57

Этой ветке комментариев 4 года, как летит время… Но теперь я знаю, что вы не бот :)

Greenplum сейчас, пожалуй, главный тренд аналитических СУБД в России. За год мы выполнили несколько очень крупных (>100Тб) внедрений, также GP внедряют коллеги по цеху — интеграторы. Сейчас Greenplum в России только по моим данным используют больше 50 относительно крупных компаний (с учётом специфики аналитических СУБД для больших объёмов это весомое количество пользователей)
В том числе выполнили несколько миграций с других СУБД — с Терадата и Экзадата
Greenplum доступен как сервис в нескольких облачных провайдерах, и скоро их будет больше
Активно ведётся разработка Greenplum 7 — уже сейчас понятно, что он будет основан на PG 12, если это случится это будет большая победа для сообщества GP
За прошедший год провели несколько митапов по GP, последний очный митап собрал около 170 человек. Мы уже были готовы перейти к формату конференции, но вмешалась пандемия, поэтому откатились до онлайн-формата. Скучаю по ламповым посиделкам с пиццей и спорами за MERGE JOIN
За год обучение эксплуатации Greenplum прошли более 300 человек. Это DBA, архитекторы, разработчики

SanSYS Oct 27 2021 at 08:01

Есть что добавить спустя год?

kapustor Oct 28 2021 at 00:42

Пять лет - это маленький юбилей!)

Что ж, изменений много. Greenplum выбран лучшей СУБД для абсолютно всех задач, его используют во всех девайсах сложнее тетриса, встроенная в ГП библиотека MADLIB предсказала ковид за год до пандемии, автопилот Тесла использует ГП для движению по маршруту, и выяснилось, что на борту Вояджер-1 также работает Greenplum - именно поэтому Вояджер всё ещё в строю :)

Ну а если серьёзно, то это классное место чтобы написать для себя отчёт за год. Итак:

Сообщество российских инженеров Greenplum выросло до 1080 человек и растёт дальше - мы прорвались в Full HD. По моему субъективному мнению в РФ практически не осталось специалиста по реляционным СУБД, не слышавшего или не работавшего с Greenplum
За время нашей пятилетней переписки я во второй раз сменил компанию-работодателя, и я всё также остаюсь связан с Greenplum. В этом году мы запустили Managed Greenplum в облаке Yandex.Cloud - полностью управляемый сервис Greenplum, который берёт на себя задачи мониторинга, бекапирования, резервирования, масштабирования и другую грязную работу. Оставили пользователям самое вкусное - загрузку и преобразование данных.
В процессе реализации п.2 полечили одну из родовых травм Greenplum - отсутствие нормальных бекапов. Теперь бекапы можно делать через WAL, без дополнительных блокировок на таблицу.
В этом году планируем много классных фич - Managed PXF, Performance Diagnostics, автоматическое переключение на зеркальные сегменты и стендбай мастер.

P.S. Публично приглашаю вас впервые за пять лет встретиться и выпить пива :)

JustSkiv Dec 13 2021 at 14:44

Но это не точно :)

SanSYS Oct 26 2022 at 08:09

Есть что добавить спустя год?

kapustor Feb 28 2023 at 20:56

Эта ветка комментариев каждый раз заставляет меня начать рефлексировать :) Прошло 6 лет... Сколько компаний, проектов, технлогий...

У Greenplum складывается непростая, но интересная судьба. Естественно, всё что ниже это моё субъективное мнение.

Условно-негативное:

Компании Pivotal уже несколько лет не существует - её поглатила Vmware. Соответвенно, теперь это VMware Greenplum
Для Vmware это непрофильный актив, и в первый год после поглощения было заметно как его пытаются "натянуть на глобус" - а давайте его продавать поверх виртуалок, а давайте засунем его в новый виртуальный апплаенс, и тд
Около двух лет назад из команды Greenplum ушла большая часть сениор разработчиков которые были там длительное время (видно по активности тут)
Greenplum не стал развиваться в сторону cloud решений, не появился serverless Greenplum поверх AWS, GCP etc. Это в целом понятно с учётом специфики нового владельца

Условно-позитивное:

Greenplum финансируется, и в некоторых сферах смена владельца пошла ему на пользу (маркетинг, например). Судя по активности видно что проект живёт
Ну и, конечно, потрясающая ситуация с Greenplum в РФ. После ухода зарабежных вендоров open-source решение с поддержкой от локальных вендоров обрело взрывную попкулярность. Сюда же можно добавить Greenplum as a service от крупнейших облачных провайдеров РФ

P.S. Я больше не связан с Greenplum напрямую, поэтому держать руку на пульсе уже не могу, возможно что-то упустил.

SanSYS Oct 25 2023 at 07:45

Есть что добавить спустя год?

yegreS Dec 7 2017 at 13:42

А есть какие-то рекомендации по кол-ву сегментов? Какое-то минимально кол-во сегментов, при которых исползование GreenPlum уже будет оправдано? Сейчас исползуем 6 сегментов на 3 серверах и результат не лучше, а временами даже хуже, чем на одном инстансе Postgress.

kapustor Dec 7 2017 at 17:32

Зависит от числа ядер, памяти и среднего количества одновременных запросов. Очень грубо — если вы знаете, что у вас в системе будет 1-2 параллельных запроса, берите число сегментов=число ядер/потоков на сервер. Если одновременных запросов, наоборот, ожидается много, можно снизить число сегментов на сервер.

У вас 6 сегментов на весь кластер или 6 сегментов на машину? Я не знаю, что у вас за машины, но 2 сегмента на сервер выглядит очень маленьким значением.

yegreS Nov 24 2020 at 13:22

через 3 года у меня еще вопрос появился) Моете подсказать какую модель данных выбрали в tinkoff? 3nf, data vault, anchor, или просто витрины?

kapustor Dec 22 2020 at 13:43

Я уже 4 года как не работаю в Тинькофф, поэтому лучше, если ответит кто-то из ребят команды DWH :)
Но насколько я знаю (и, кажется, могу это озвучивать тк озвучивал это лет пять назад на одном из митапов), в Тинькофф наследуются модель из продукта SAS Analytics for Banking, так как ещё до ГП хранилище было целиком построено на технологиях SAS. Наверно, ближе всего из вашего списка это к 3nf — что-то среднее между Кимбалом и Инманом, но, повторюсь, лучше спросить ребят из Тинькофф.