Loxmatiymamont18 дек 2024 в 11:00

Будущее PostgreSQL: как 64-битный счетчик транзакций решает проблему масштабирования

Средний

7 мин

23K

Блог компании Postgres ProfessionalPostgreSQL * Базы данных * SQL * Системное программирование *

✏️ Технотекст 7

+65

Комментарии 30

dude_sam 18 дек 2024 в 13:20

Как упоминалось выше, в каждом кортеже (он же tuple в английской документации) хранятся xmin и xmax. Получается, что в каждый кортеж теперь надо писать не 8 байт, а 16.

А как оно "включается" на уже существующей БД? Поднимается бэкап на версии Postgres c имплементированным 64-bit xid и что потом? Оба столбца каждой строки каждой таблицы апдейтится под новый тип данных или что? Или всё остаётся как есть и только в следующее изменение кортежа меняется тип этих столбцов? Или вообще всё иначе?

Loxmatiymamont 18 дек 2024 в 15:06

Это неточность формулировки. Правильно должно звучать так: надо было бы писать не 8, а 16 (в статье исправил тоже). Именно по этой причине мы не пошли таким путём. Мы храним туплы в старом 32–х битном формате, сохраняя 8 байт ксидов для каждого тупла, но дополнительно размещаем на странице “базу”, сложение с которой и выдаёт нам 8-ми байтный ксид.

dude_sam 18 дек 2024 в 15:32

Ага! Спасибо! Теперь понятно.

Portnov 19 дек 2024 в 04:22

Эта база ведь прибавляется и к xmin, и к xmax всех туплов на этой странице?

А если разница между xmin и xmax туплов на одной странице вдруг станут отличаться больше чем на 4млрд? :) понятно что маловероятная ситуация...

evkochurov 24 дек 2024 в 11:33

Почему маловероятная? Автор же сам пишет, что 32-биный счетчик за сутки может переполняться. Удалили запись с возрастом два дня - и привет. Или я что-то неправильно понимаю?

bzq 26 дек 2024 в 15:01

Правильно понимаете. Конечно проблема существует и является ограничением текущей реализации. Если базу не получится сдвинуть, то будет ошибка. Но такие ситуации, когда в одном блоке разница между двумя номерами транзакций должна быть меньше 2**32, бывают значительно реже, чем ограничение на разницу 2**31 на всех блоках всего кластера.

Okunev_PY 18 дек 2024 в 15:08

При поднятии бэкапа все счётчики сбрасываються и заполняються уже средствами текущего движка СУБД.

Поэтому размерность кортежей в исходной БД роли не играет

dude_sam 18 дек 2024 в 15:35

Ну, я больше про тип спрашивал, но не про значения. Но там выше объяснили, что не изменяется как-бы ничего.

Ivan22 18 дек 2024 в 15:19

postgres плохо подходит для высоконагруженных транзакционных субд в первую очередь вовсе не из-за размерности xid. Главная причина - механизм версионности, который плодит версии строки внутри того же сегмента данных, что приводит к распуханию сегментов данных, потом к необходимости вакуума по тем же страницам данных, а потом и к дефрагментации из-за этого (и необходимости в vacuum full). Это все просто антипаттерн для системы где много изменений в данных. И сравните это с эталоном - Oracle, где старые версии строки хранятся в отдельном сегменте данных undo log, и поэтому: 1. Не распухает основной сегмент данных. 2. Очистка старых версий (вакуум) НЕ мешает работе с основными данными, 3. дефрагментация из-за пустых версий отсутствует. (единственное где из-за этого оракл проиграет - при Rollback-ах. Но много ли их выообще?? )

Это фатальный недостаток который в PG принципиально не излечим

vitaly_il1 18 дек 2024 в 16:44

Интересно, не думал об этом.
Можете посоветовать пост/статью на эту тему со сравнением популярных DB?

windsurfer69 24 дек 2024 в 13:17

Ссылки на превосходство «эталона» ничем не обоснованы, так как бенчмарки с участием Оракла без письменного разрешения Оракла законодательно запрещены. Все крупнейшие базы реализованы на различных вариантах mvcc, бенчмарки показывают, что реализация в целом неплохая и конкурентоспособная. Сейчас статьи нет под рукой, но поищу и приложу ссылки на статьи с бенчмарками версионного контроля в базах.

Roman2dot0 19 дек 2024 в 07:41

orioledb придёт, порядок наведёт.

Sleuthhound 19 дек 2024 в 14:34

Там очень глобальные доработки в ядре и я сильно сомневаюсь что удастся их пропихнуть в основной состав Pg.

А переходить в чистом виде на OrioleDB не каждый решиться без поддержки.

И кстате пока в OrioleDB нельзя создавать индексы отличные от B-Tree, но очень ждем что команда Александра Короткова это решит.

Roman2dot0 19 дек 2024 в 16:26

Там патчи направлены на расширение функционала "table access method".

Часть патчей уже приняли, остальные ожидается в 18 версии.

Основное будет реализовано как расширение. Так что не всё так плохо.

ViacheslavNk 19 дек 2024 в 08:38

К сожалению да, слабое место postgree на высоких нагрузках это MVCC.

bzq 26 дек 2024 в 15:07

Оракл точно так же на высоких нагрузках поднимает лапки с ORA-01555: snapshot too old. Я бы сказал, что современные СУБД — это ПО с помощью которого можно получать нужные результаты, но только если уметь это делать. Родовые недостатки есть у всех.

dbax 10 янв 2025 в 11:08

Совершенно верно. Большинство же "проблем" Постгреса - это в большей степени проблемы пользователя с Ораклом Головного Мозга. Который десятки лет ничего кроме Оракла не видел и теперь хочет чтоб везде было "как в Оракле" и ни как иначе.

khajiit 22 дек 2024 в 09:09

Разве этот фатальный недостаток, который принципиально не излечим, не нивелируется CoW?

Ivan22 22 дек 2024 в 14:34

нет

MatveevDmitry 18 дек 2024 в 18:29

Стоит добавить что это сделало невозможным использование служебного столбца xmin для разрешения конфликтов доступа в оптимистичной модели Entity Framework Core в .NET. Именно его предлагают использовать в ванильном PostgreSQL для этих целей. Официальный драйвер PostgreSQL логично не может больше смапить этот столбец в Postgres Pro Enterprise на тип unsigned int, потому что ожидается другой тип. И это явилось для нас очень неприятным открытием и послужило отказом от использования Postgres Pro Ent.

Loxmatiymamont 19 дек 2024 в 08:20

Да, есть такое. Но на Майкрософт мы повлиять не можем. С другой стороны, все понимают что рано или поздно в ванилле тип данных тоже изменится, после чего им придется изменить свой драйвер.

P.s. в standart версии ксиды хранятся по старорежимному, так что если нет потребности именно в ent, это не будет проблемой.

MatveevDmitry 19 дек 2024 в 20:19

Это с скорее к разработчикам драйвера npgsql, но они вряд ли что то будут делать, чего нет в ванили. Кстати в последних версиях он поддерживает тип xid8. Но при попытке создания xmin с этим типом в enterprise через model (code) first, все равно получаю в БД xid, и оно конечно не работает. Надо будет попробовать покопаться во внутрянке драйвера когда будет время, может удастся научить его работать с вашими xid. Некоторые наши заказчики настаивают на использовании именно Postgres Pro Enterprise.

fivec 24 дек 2024 в 05:57

Тоже столкнулись с этой проблемой при реализации оптимистической блокировки EF, пока решения нет. и тоже использовать xid8 не получилось, может быть вендер "Pro Ent" что-то будет рекомендовать?

Wesha 19 дек 2024 в 01:01

Это называется не «решили проблему», а «отложили проблему на неопределённое время». («Проблема 2000» передаёт ~~горячий привет~~ эстафету «проблеме 2038»).

manyakRus 19 дек 2024 в 07:28

Хочу использовать поле xmin как номер версии записи в коде go, чтобы случайно не записать в БД устаревшую версию записи из памяти.
Сейчас это бесполезно т.к. 32битный ИД может стать меньше чем был.
Хочу 64битный xmin :-)

AdAbsurdum 20 дек 2024 в 23:10

Можно сделать колонку и класть туда 64 битный "xmin здорового человека" используя txid_current()

dbax 20 дек 2024 в 11:58

Сдается мне что проблема 32-битного счетчика транзакций в большой мере надуманная.

Почему за все годы никто в глобальной pgdg не серьезно задумался об этом?

Скорее всего 99,99% инсталляций не сталкиваются с подобной проблемой даже близко. А в тех случаях когда это все-таки "выстреливает" имело место изначально "кривая" архитектура приложения(АПП и БД в комплексе)

Loxmatiymamont 21 дек 2024 в 10:13

Вот бы об этом были первые же два абзаца...

bzq 26 дек 2024 в 15:23

Но даже это не основная проблема. Как упоминалось выше, в каждом кортеже (он же tuple в английской документации) хранятся xmin и xmax. Получается, что в каждый кортеж теперь надо было бы писать не 8 байт, а 16. А при условии что минимальный кортеж — это 24 байта, размер базы начинает стремительно увеличиваться.

Дополню, что проблема более комплексная. Просто добавить по 8 байт к каждой записи — не такая уж большая проблема. Самые объёмные таблицы в современных базах имеют довольно большие по размеру строки и суммарное увеличение от простой замены xmin/xmax на 8-байтные числа повлечёт увеличение размера баз хорошо если на 1-2%. По нынешним меркам это ничножная плата за отсутствие wraparound. Скорее всего современные файловые системы со сжатием вообще не покажут никакой существенной разницы. Сложности в другом. Чтобы сделать такую замену надо поменять формат хранения блоков и, следовательно, переписать всю базу в новый формат. То есть потеря обратной совместимости, до свидания pg_upgrade --link, и вообще быстрое обновление на такой формат невозможно. Для больших баз, а 64-битный счётчик транзакций нужен именно им, это серьёзный аргумент против. Вот и думает сообщество, хитровывернутая математика база+смещение со всей её сложностью и потенциальными проблемами (читай — багами), или таки честные 64 бита с необходимостью тяжёлой миграции на новый формат. А сама необходимость в 64-битном счётчике давно уже очевидна.

rombell 10 янв 2025 в 14:16

Думаю, имеет смысл сразу закладывать возможность дальнейшего расширения, иначе получится очередное "640kb хватит всем"

Зарегистрируйтесь на Хабре, чтобы оставить комментарий