Комментарии 33
17 фераля 2015 года Pivotal заявили, что в ближайшем будущем Greenplum станет open source проектом, войдя в Big Data Product Suite.Отлично
В целом по статье одно замечание — Primary и Mirror синхронизируются не через WAL, а с помощью кастомной синхронной репликации на уровне файлов. Именно поэтому возможно переключение на Mirror в режиме online — благодаря синхронной репликации зеркало будет гарантированно содержать ту же информацию. И именно поэтому производительность падает при выпадании одного сегмента из пары — пресловутый WAL начинает писаться в полном объеме
А касательно фич новых PostgreSQL — работы по их бэкпорту ведутся полным ходом. Будет и jsonb, и hstore, и anonymous code blocks, и еще много всего. Пока релиз GPDB 5.0 планируется на первую половину следующего года
Да, и добавить есть много чего, информации слишком много для одного комментария:
- Greenplum теперь полноценный Open-source дистрибутив, 09.2017 был первый OS-релиз 5.0.0 (сейчас уже 5.1.0 + через пару дней будет 5.2.0 + появились первые наброски 6.0.0);
- в 5.0.0 появилось очень много нового: новый способ взаимодействия с Hadoop (Hive, HDFS), новый SPARK-коннектор, много новых фич (dblink, Anonymous blocks и т.д.);
- По части эксплуатации системы в Тинькофф могу сказать, что до июля 2017-го года GP показывал себя хорошо и каких либо эксцессов не было, после чего я начал работу в другой компании — Arenadata. Мы разрабатываем, внедряем и поддерживаем свой корпоративный дистрибутив Greenplum с учётом уже имеющихся best practices.
На самом деле очень много что появилось и изменилось, но если по верхам:
- Готовится к выходу Greenplum 6 — Postgres версии 9.4, Replicated-таблицы, новый алгоритм хеширования, новый сетевой протокол и ещё куча новых фич
- В нашем дистрибутиве Greenplum — Arenadata DB — добавлена (и уже работает у наших заказчиков) компрессия ZSTD — arenadata.tech/products/db
- Наша же команда реализовала графический инсталятор для open-source data-сервисов — Arenadata Cluster Manager, и первым продуктом в нём конечно же стал Greenplum — docs.arenadata.io/adb/install/adcm/ru/index.html
- Присоединяйтесь в чат Greenplum Russia, почти все экплуатанты Greenplum в России сидят там, стараемся помогать друг другу — t.me/greenplum_russia
- Greenplum сейчас, пожалуй, главный тренд аналитических СУБД в России. За год мы выполнили несколько очень крупных (>100Тб) внедрений, также GP внедряют коллеги по цеху — интеграторы. Сейчас Greenplum в России только по моим данным используют больше 50 относительно крупных компаний (с учётом специфики аналитических СУБД для больших объёмов это весомое количество пользователей)
- В том числе выполнили несколько миграций с других СУБД — с Терадата и Экзадата
- Greenplum доступен как сервис в нескольких облачных провайдерах, и скоро их будет больше
- Активно ведётся разработка Greenplum 7 — уже сейчас понятно, что он будет основан на PG 12, если это случится это будет большая победа для сообщества GP
- За прошедший год провели несколько митапов по GP, последний очный митап собрал около 170 человек. Мы уже были готовы перейти к формату конференции, но вмешалась пандемия, поэтому откатились до онлайн-формата. Скучаю по ламповым посиделкам с пиццей и спорами за MERGE JOIN
- За год обучение эксплуатации Greenplum прошли более 300 человек. Это DBA, архитекторы, разработчики
Есть что добавить спустя год?
Пять лет - это маленький юбилей!)
Что ж, изменений много. Greenplum выбран лучшей СУБД для абсолютно всех задач, его используют во всех девайсах сложнее тетриса, встроенная в ГП библиотека MADLIB предсказала ковид за год до пандемии, автопилот Тесла использует ГП для движению по маршруту, и выяснилось, что на борту Вояджер-1 также работает Greenplum - именно поэтому Вояджер всё ещё в строю :)
Ну а если серьёзно, то это классное место чтобы написать для себя отчёт за год. Итак:
Сообщество российских инженеров Greenplum выросло до 1080 человек и растёт дальше - мы прорвались в Full HD. По моему субъективному мнению в РФ практически не осталось специалиста по реляционным СУБД, не слышавшего или не работавшего с Greenplum
За время нашей пятилетней переписки я во второй раз сменил компанию-работодателя, и я всё также остаюсь связан с Greenplum. В этом году мы запустили Managed Greenplum в облаке Yandex.Cloud - полностью управляемый сервис Greenplum, который берёт на себя задачи мониторинга, бекапирования, резервирования, масштабирования и другую грязную работу. Оставили пользователям самое вкусное - загрузку и преобразование данных.
В процессе реализации п.2 полечили одну из родовых травм Greenplum - отсутствие нормальных бекапов. Теперь бекапы можно делать через WAL, без дополнительных блокировок на таблицу.
В этом году планируем много классных фич - Managed PXF, Performance Diagnostics, автоматическое переключение на зеркальные сегменты и стендбай мастер.
P.S. Публично приглашаю вас впервые за пять лет встретиться и выпить пива :)
Есть что добавить спустя год?
Эта ветка комментариев каждый раз заставляет меня начать рефлексировать :) Прошло 6 лет... Сколько компаний, проектов, технлогий...
У Greenplum складывается непростая, но интересная судьба. Естественно, всё что ниже это моё субъективное мнение.
Условно-негативное:
Компании Pivotal уже несколько лет не существует - её поглатила Vmware. Соответвенно, теперь это VMware Greenplum
Для Vmware это непрофильный актив, и в первый год после поглощения было заметно как его пытаются "натянуть на глобус" - а давайте его продавать поверх виртуалок, а давайте засунем его в новый виртуальный апплаенс, и тд
Около двух лет назад из команды Greenplum ушла большая часть сениор разработчиков которые были там длительное время (видно по активности тут)
Greenplum не стал развиваться в сторону cloud решений, не появился serverless Greenplum поверх AWS, GCP etc. Это в целом понятно с учётом специфики нового владельца
Условно-позитивное:
Greenplum финансируется, и в некоторых сферах смена владельца пошла ему на пользу (маркетинг, например). Судя по активности видно что проект живёт
Ну и, конечно, потрясающая ситуация с Greenplum в РФ. После ухода зарабежных вендоров open-source решение с поддержкой от локальных вендоров обрело взрывную попкулярность. Сюда же можно добавить Greenplum as a service от крупнейших облачных провайдеров РФ
P.S. Я больше не связан с Greenplum напрямую, поэтому держать руку на пульсе уже не могу, возможно что-то упустил.
Есть что добавить спустя год?
Видимо уже нет https://www.opennet.ru/opennews/art.shtml?num=61292
У вас 6 сегментов на весь кластер или 6 сегментов на машину? Я не знаю, что у вас за машины, но 2 сегмента на сервер выглядит очень маленьким значением.
Но насколько я знаю (и, кажется, могу это озвучивать тк озвучивал это лет пять назад на одном из митапов), в Тинькофф наследуются модель из продукта SAS Analytics for Banking, так как ещё до ГП хранилище было целиком построено на технологиях SAS. Наверно, ближе всего из вашего списка это к 3nf — что-то среднее между Кимбалом и Инманом, но, повторюсь, лучше спросить ребят из Тинькофф.
Greenplum DB