Как стать автором
Обновить

Комментарии 31

17 фераля 2015 года Pivotal заявили, что в ближайшем будущем Greenplum станет open source проектом, войдя в Big Data Product Suite.
Отлично
На текущий момент перевод Greenplum в open source планируется выполнить в последних числах октября

В целом по статье одно замечание — Primary и Mirror синхронизируются не через WAL, а с помощью кастомной синхронной репликации на уровне файлов. Именно поэтому возможно переключение на Mirror в режиме online — благодаря синхронной репликации зеркало будет гарантированно содержать ту же информацию. И именно поэтому производительность падает при выпадании одного сегмента из пары — пресловутый WAL начинает писаться в полном объеме

А касательно фич новых PostgreSQL — работы по их бэкпорту ведутся полным ходом. Будет и jsonb, и hstore, и anonymous code blocks, и еще много всего. Пока релиз GPDB 5.0 планируется на первую половину следующего года
Было бы очень хорошо с их стороны сдержать обещание, невзирая на недавнюю мегасделку.
Что у вас в банке используется для етл процессинга, и какой би инструмент используется? если сравнить с тем Sql server 2014(колоночные индексы) то что лучше? По производительности?
Для ETL используется SAS DI, подробней про нашу интеграцию SAS с GP можно прочитать тут.
Для BI используется SAP BO.
SQL Server мы не используем, не могу судить о производительности.
Date Warehouse у вас классическая dimensional model, как у Кимбалла, или какая-нибудь хитрая вариация?
Модель скорее гибридная. Сказываются корни SAS Detail Data Store for Banking, чья модель была взята за основу и переработана.
Спасибо! Было бы интересно увидеть теоретическую статью на эту тему :)
Отличная и содержательная статья. Спасибо. Буквально недавно начал тестировать и изучать эту СУБД и взахлеб читаю гайды по ней.
Как раз самое время начать сейчас, когда исходный код был открыт: link
И не просто открыт, они мигрировали в github историю всех 23к коммитов начиная с форка Postgres
Скорее нет, чем да. Серьёзных происшествий не было (т-т-т), найдено пара багов, отправлены в саппорт и уже даже исправлены в новой (4.3.10) версии. Установили во все сервера продуктовых кластеров PCI-SSD диски, вынесли туда некоторые особо критичные к скорости таблицы и ворк-схемы SAS-джобов. Готовимся к очередному экспанду (упираемся и в место на кластере, и в производительность).
Есть что добавить спустя год?
Виден системный подход к комментированию :)
Да, и добавить есть много чего, информации слишком много для одного комментария:
  • Greenplum теперь полноценный Open-source дистрибутив, 09.2017 был первый OS-релиз 5.0.0 (сейчас уже 5.1.0 + через пару дней будет 5.2.0 + появились первые наброски 6.0.0);
  • в 5.0.0 появилось очень много нового: новый способ взаимодействия с Hadoop (Hive, HDFS), новый SPARK-коннектор, много новых фич (dblink, Anonymous blocks и т.д.);
  • По части эксплуатации системы в Тинькофф могу сказать, что до июля 2017-го года GP показывал себя хорошо и каких либо эксцессов не было, после чего я начал работу в другой компании — Arenadata. Мы разрабатываем, внедряем и поддерживаем свой корпоративный дистрибутив Greenplum с учётом уже имеющихся best practices.
Есть что добавить спустя год?
А вы точно не бот?)
На самом деле очень много что появилось и изменилось, но если по верхам:
  • Готовится к выходу Greenplum 6 — Postgres версии 9.4, Replicated-таблицы, новый алгоритм хеширования, новый сетевой протокол и ещё куча новых фич
  • В нашем дистрибутиве Greenplum — Arenadata DB — добавлена (и уже работает у наших заказчиков) компрессия ZSTD — arenadata.tech/products/db
  • Наша же команда реализовала графический инсталятор для open-source data-сервисов — Arenadata Cluster Manager, и первым продуктом в нём конечно же стал Greenplum — docs.arenadata.io/adb/install/adcm/ru/index.html
  • Присоединяйтесь в чат Greenplum Russia, почти все экплуатанты Greenplum в России сидят там, стараемся помогать друг другу — t.me/greenplum_russia
Есть что добавить спустя год?
Каааак?? Как вы это делаете? :)
Вышел Greenplum 6 — только что опубликовал статью про новые фичи.
А так всё прекрасно, Greenplum в России становится всё больше и это очень приятно.
А что, даже если и бот, то с подачи SanSYS этот тред читать очень интересно. Видна динамика прямо по годам.
Есть что добавить спустя год?
Этой ветке комментариев 4 года, как летит время… Но теперь я знаю, что вы не бот :)
  1. Greenplum сейчас, пожалуй, главный тренд аналитических СУБД в России. За год мы выполнили несколько очень крупных (>100Тб) внедрений, также GP внедряют коллеги по цеху — интеграторы. Сейчас Greenplum в России только по моим данным используют больше 50 относительно крупных компаний (с учётом специфики аналитических СУБД для больших объёмов это весомое количество пользователей)
  2. В том числе выполнили несколько миграций с других СУБД — с Терадата и Экзадата
  3. Greenplum доступен как сервис в нескольких облачных провайдерах, и скоро их будет больше
  4. Активно ведётся разработка Greenplum 7 — уже сейчас понятно, что он будет основан на PG 12, если это случится это будет большая победа для сообщества GP
  5. За прошедший год провели несколько митапов по GP, последний очный митап собрал около 170 человек. Мы уже были готовы перейти к формату конференции, но вмешалась пандемия, поэтому откатились до онлайн-формата. Скучаю по ламповым посиделкам с пиццей и спорами за MERGE JOIN
  6. За год обучение эксплуатации Greenplum прошли более 300 человек. Это DBA, архитекторы, разработчики

Есть что добавить спустя год?

Пять лет - это маленький юбилей!)

Что ж, изменений много. Greenplum выбран лучшей СУБД для абсолютно всех задач, его используют во всех девайсах сложнее тетриса, встроенная в ГП библиотека MADLIB предсказала ковид за год до пандемии, автопилот Тесла использует ГП для движению по маршруту, и выяснилось, что на борту Вояджер-1 также работает Greenplum - именно поэтому Вояджер всё ещё в строю :)

Ну а если серьёзно, то это классное место чтобы написать для себя отчёт за год. Итак:

  1. Сообщество российских инженеров Greenplum выросло до 1080 человек и растёт дальше - мы прорвались в Full HD. По моему субъективному мнению в РФ практически не осталось специалиста по реляционным СУБД, не слышавшего или не работавшего с Greenplum

  2. За время нашей пятилетней переписки я во второй раз сменил компанию-работодателя, и я всё также остаюсь связан с Greenplum. В этом году мы запустили Managed Greenplum в облаке Yandex.Cloud - полностью управляемый сервис Greenplum, который берёт на себя задачи мониторинга, бекапирования, резервирования, масштабирования и другую грязную работу. Оставили пользователям самое вкусное - загрузку и преобразование данных.

  3. В процессе реализации п.2 полечили одну из родовых травм Greenplum - отсутствие нормальных бекапов. Теперь бекапы можно делать через WAL, без дополнительных блокировок на таблицу.

  4. В этом году планируем много классных фич - Managed PXF, Performance Diagnostics, автоматическое переключение на зеркальные сегменты и стендбай мастер.

P.S. Публично приглашаю вас впервые за пять лет встретиться и выпить пива :)

Есть что добавить спустя год?

Эта ветка комментариев каждый раз заставляет меня начать рефлексировать :) Прошло 6 лет... Сколько компаний, проектов, технлогий...

У Greenplum складывается непростая, но интересная судьба. Естественно, всё что ниже это моё субъективное мнение.

Условно-негативное:

  • Компании Pivotal уже несколько лет не существует - её поглатила Vmware. Соответвенно, теперь это VMware Greenplum

  • Для Vmware это непрофильный актив, и в первый год после поглощения было заметно как его пытаются "натянуть на глобус" - а давайте его продавать поверх виртуалок, а давайте засунем его в новый виртуальный апплаенс, и тд

  • Около двух лет назад из команды Greenplum ушла большая часть сениор разработчиков которые были там длительное время (видно по активности тут)

  • Greenplum не стал развиваться в сторону cloud решений, не появился serverless Greenplum поверх AWS, GCP etc. Это в целом понятно с учётом специфики нового владельца

Условно-позитивное:

  • Greenplum финансируется, и в некоторых сферах смена владельца пошла ему на пользу (маркетинг, например). Судя по активности видно что проект живёт

  • Ну и, конечно, потрясающая ситуация с Greenplum в РФ. После ухода зарабежных вендоров open-source решение с поддержкой от локальных вендоров обрело взрывную попкулярность. Сюда же можно добавить Greenplum as a service от крупнейших облачных провайдеров РФ

P.S. Я больше не связан с Greenplum напрямую, поэтому держать руку на пульсе уже не могу, возможно что-то упустил.

Есть что добавить спустя год?

А есть какие-то рекомендации по кол-ву сегментов? Какое-то минимально кол-во сегментов, при которых исползование GreenPlum уже будет оправдано? Сейчас исползуем 6 сегментов на 3 серверах и результат не лучше, а временами даже хуже, чем на одном инстансе Postgress.
Зависит от числа ядер, памяти и среднего количества одновременных запросов. Очень грубо — если вы знаете, что у вас в системе будет 1-2 параллельных запроса, берите число сегментов=число ядер/потоков на сервер. Если одновременных запросов, наоборот, ожидается много, можно снизить число сегментов на сервер.

У вас 6 сегментов на весь кластер или 6 сегментов на машину? Я не знаю, что у вас за машины, но 2 сегмента на сервер выглядит очень маленьким значением.
через 3 года у меня еще вопрос появился) Моете подсказать какую модель данных выбрали в tinkoff? 3nf, data vault, anchor, или просто витрины?
Я уже 4 года как не работаю в Тинькофф, поэтому лучше, если ответит кто-то из ребят команды DWH :)
Но насколько я знаю (и, кажется, могу это озвучивать тк озвучивал это лет пять назад на одном из митапов), в Тинькофф наследуются модель из продукта SAS Analytics for Banking, так как ещё до ГП хранилище было целиком построено на технологиях SAS. Наверно, ближе всего из вашего списка это к 3nf — что-то среднее между Кимбалом и Инманом, но, повторюсь, лучше спросить ребят из Тинькофф.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий