Kilor26 апр 2021 в 07:10

Чего «энтерпрайзу» в PostgreSQL не хватает

6 мин

17K

Блог компании ТензорВысоконагруженные системы * PostgreSQL * SQL * Базы данных *

Технотекст 2021

+31

Комментарии 31

imschur 26 апр 2021 в 07:30

Еще очень бы хотелось, чтобы дожали давно зависшую тему с использованием IS NOT DISTINCT FROM при индексации. Это очень полезно, к примеру, при построении иерархии от корня, где Parent стоит NULL. Вот обсуждение: www.postgresql.org/message-id/6FC83909-5DB1-420F-9191-DBE533A3CEDE@excoventures.com

worldmind 26 апр 2021 в 10:29

А мультимастер точно нужен, припоминаю что таи есть фунламентальные проблемы, которые не позволяют его сделать надёжным и универсальным?

RekGRpth 26 апр 2021 в 13:42

может, проще вместо мультимастера сделать что-то, похожее на oracle rac (когда один инстанс базы запускается сразу на нескольких машинах и при поломке одной машины ничего плохого не происходит)?

MrAloof 26 апр 2021 в 17:48

Нужно дополнительно горизонтальное масштабирование на запись. То есть несколько инстансов умеющих запись.
С чтением и файловер худо-бедно в постгрес решается...

funny_falcon 10 дек 2021 в 18:16

Мультимастер ни когда не добавляет масштабирования на запись.

Его добавляет только шардирование.

Мультимастер может быть скрещён с шардированием. Но масштабирование на запись будет добавлять при этом только шардирование.

MrAloof 10 дек 2021 в 18:33

Вопрос в том, кто за шардирование отвечает. Либо это на уровне разработки, либо на уровне БД.

Хотя бы намекните на инструменты "прозрачного" шардирования для postgresql.

Ну а на уровне приложения можно на любой бд шардировать...

funny_falcon 10 дек 2021 в 20:30

Ну вообще, на данный момент есть CitusDB. Сам я его, правда, не трогал. Но судя по заверениям, даже транзакции меж шардами работают.

WandererTM 27 апр 2021 в 09:53

Рассматриваем сейчас Postgres как вариант для реализации одной системы. А не может ли кто-нибудь разъяснить, какие такие фундаментальные проблемы есть с этим у него?

Помнится, в начале 2000-х реализовывал одну систему на Sybase SQL Anywhere — так там у меня 4 узла реплицировались раз в 5-10 минут (двусторонняя репликация, индивидуальные настройки узлов) ПО МОДЕМАМ. И всё работало. Единственное, что пришлось предусмотреть в схеме БД — генерация первичных ключей с гарантией уникальности. А тут прошло почти 20 лет — и какие-то фундаментальные проблемы???

worldmind 27 апр 2021 в 10:06

Дело не в постгресе, сама идея мультимастер репликации порочна чуток (давно читал, могу криво объяснять) — в реальности есть разрывы связи и не идеальная синхронизация времени, поэтому могу быть случаи когда acid'а не получится.
Но это конечно речь про асинхронную репликацию, хотя думаю синхронная никого и не интересует в данном случае.

worldmind 27 апр 2021 в 21:50

Ну или за acid придётся заплатить произаодительностью, раза в два у некоторых решений.

WandererTM 28 апр 2021 в 08:31

Речь именно об асинхронной репликации. И именно в случае, когда нельзя допустить простоев узла при невозможности репликации из-за отсутствия связи.

В том решении на SQL Anywhere как раз было 4 территориально разнесённых розничных магазина одной компании. Естественно, они продолжали работать даже если вообще остановить репликацию. Использовался обмен файлами репликации, создаваемыми утилитой sql remote, за всё время работы (а работала система лет 5-7, точно не помню), был один (!) случай, когда что-то пошло не так и пришлось восстанавливать состояние репликации в узлах. Данные при этом потеряны не были.

Но, повторюсь, там изначально при создании системы схема БД создавалась с учётом данной специфики.

P.S. Да и сейчас для системы, которую собираемся делать, это одно из основных требований — её узлы должны оставаться работоспособными даже при отсутсвии связи между ними.

edo1h 28 апр 2021 в 19:46

разумеется, если спроектировать базу так, что разные узлы не могут изменять одни и те же записи, то сделать мультмастер несложно.
только при такой архитектуре он не так уж и необходим: можно побить базу на несколько, и для каждой назначить единственного мастера.

WandererTM 29 апр 2021 в 16:46

Узлы (магазины) там могли изменять ВСЕ данные. Другое дело, что бизнес-кейс был такой, что репликации раз в 5-10 минут хватало на то, чтобы конфликтов репликации за всё время работы системы было меньше десятка.

kotov_a 26 апр 2021 в 13:55

Конечно же необходим failover из коробки (аналогично always on у MS SQL) без использования Patroni и сопутствующих.
Поддерживаю необходимость поддержать временные таблицы на реплике, in memory таблицы.

Sleuthhound 26 апр 2021 в 19:57

А неужели никого не напрягает отсутствие в PgSQL такой штуки как Asynchronous IO и Direct IO. Оно сто лет как есть в MySQL и Oracle, но в PgSQL увы нет и даже непонятно когда ждать.

Есть какая-то активность тут и оно же тут, но я думаю оно и в PgSQL v20 не будет реализовано.

funny_falcon 10 дек 2021 в 18:20

Напрягать могут проблемы в производительности, а не отсутствие фич, не находящих отражение в SQL выражениях.

В SQL запросы отличаются от наличия AIO или Direct IO? Нет, запросы те же самые.

Т.е. правильно вопрос звучал бы "интересно, скоро ли смогут нормально прикрутить AIO/DirectIO, чтобы избавиться от двойного кэширования? Надеюсь, это даст существенную прибавку скорости".

shurutov 27 апр 2021 в 04:28

И никого их эксплуататоров ПГ не напрягает процедура обновления мажорной версии? И связанное с этим обновлением рукоблудие? А необходимость иметь версии исполняемых файлов обоих версий — это тоже верх инженерной мысли?
В том же MySQL обновление кластера:

обновил реплики;
проверил состояние репликации;
переключил мастера;
обновил мастера.

Простой — на время переключения мастера, без какой-либо головной боли и дополнительных телодвижений. Процедура же обновления ПГ выглядит по сравнению с MySQL чем-то лютым… :(

А ещё — очень часто не хватает разделения логов по каким-нибудь критериям: ошибки подключения, общие ошибки, длинные запросы. О, длинные запросы! Вот реально именно их вынести в отдельный лог просто необходимо.

Alex1OPS 27 апр 2021 в 13:38

Иногда чертовски не хватает аналога flashback queries, который достаточно давно есть в Oracle;
Edition-based redefinition тоже бы очень хотелось видеть.

x4m 2 мая 2021 в 18:25

flashback не сложно написать, только ведь он не дальше последнего вакуума. С такими ограничениями он полезен?

Alex1OPS 3 мая 2021 в 14:08

В самом простейшем случае — не сложно. Полноценно с таким же количеством фичей — уже проблематично.

он не дальше последнего вакуума

— есть ещё UNDO_RETENTION параметр, который часто поможет для базы с «хорошей» настройкой (как минимум, правильно подобранный размер undo сегмента, метриками нагрузки, периодически проверяемыми AWR). Выручал так пару раз таблицы инвенторики, без предварительных настроек, в течение суток после ЧП (повезло, не было memory pressure).
Чуть позже ещё появился Flashback Data Archive, который можно гранулярно настроить для нужных таблицы. FDA уже даёт более жёсткие гарантии (и большую гибкость в настройке с поддержкой периода жизни архива, размера архива и т.п.). Тут уже на удачу не прокатит, конечно, нужна подготовка заранее.
Конечно, ограничений тоже хватает (DDL, затыки с lob раньше были), но получать такое из коробки очень полезно.
Если весь этот фарш можно быстро настроить и в postgres, буду благодарен на референсы)

worldmind 27 апр 2021 в 21:52

Не понял про in-memory, вроде субд и есть инмемори пока всё в мемори вмещается, были сравнения где постгрес быстрее редиса был.

Kilor 28 апр 2021 в 05:33

Если речь про настройку конфигурации вроде такой:
www.databasesoup.com/2015/02/running-with-scissors-mode.html

То это не совсем то, что хочется, поскольку распространяется сразу на всю базу (точнее, на весь инстанс PG). А представьте, что вам надо иметь во всей базе всего лишь одну табличку in-memory — например, токены активных web-сессий — а никак.

worldmind 28 апр 2021 в 06:54

Вопрос конечно насколько это критично, но вероятно да — отдельный инстанс чего-то и обращение к нему как-то, fdw какой.

worldmind 28 апр 2021 в 06:54

Del

EvgenyVilkov 28 апр 2021 в 08:38

А нормальная компрессия уже появилась разве?

Не хватает фильтрации данных на storage уровне.

Kilor 28 апр 2021 в 08:50

А нормальная компрессия уже появилась разве?

Есть заходы на эту тему с разных сторон:
afiskon.github.io/static/2017/postgresql-in-core-compression-pgconf2017.pdf
www.postgresql.eu/events/pgconfeu2019/sessions/session/2671/slides/263/Data_Compression_in_PostgreSQL_and_its_future_noscript.pdf
postgrespro.ru/docs/enterprise/9.6/cfs-usage

Вот принятый в v14 патч для TOAST:
commitfest.postgresql.org/32/2813
www.depesz.com/2021/03/22/waiting-for-postgresql-14-allow-configurable-lz4-toast-compression

EvgenyVilkov 28 апр 2021 в 09:08

тогда первый вопрос снимается, но второй остается

Kilor 28 апр 2021 в 09:31

Не хватает фильтрации данных на storage уровне.

А можно пример, о чем именно идет речь?

EvgenyVilkov 28 апр 2021 в 09:45

Аналог storage индекса — предикат запроса фильтрует данные при сканировании.
Без этой фичи если запрос не попадает под патерн секционирования или в индекс, то идет фулскан
Тот же pivotal пытается сам впилить это сейчас в GreenPlum и обещает в 7ке. До этого правда обещал в 6ке )

hard_sign 12 мая 2021 в 15:41

Есть такое:
habr.com/ru/company/postgrespro/blog/346460

EvgenyVilkov 13 мая 2021 в 07:03

Спасибо за ссылку. Полезная. Единственное минус который вижу что нужно создавать руками, а не создаются автоматически.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий