erogov Jul 17 2019 at 18:27

WAL в PostgreSQL: 3. Контрольная точка

12 min

34K

Postgres Professional corporate blogPostgreSQL*SQL*

+30

Comments 20

v0devil Jul 18 2019 at 12:03

~~Спасибо за статью, только оставляйте плз ссылки на предыдущие статьи где-нибудь в начале или конце~~ сорри нашёл )

erogov Jul 18 2019 at 12:04

Balu55 Jul 18 2019 at 13:23

Что произойдет если во время одной контрольной точки начнет выполнение другая? Например у нас выполнялась по расписанию и в середине процесса начнет выполняться по превышении max_wal_size

erogov Jul 18 2019 at 13:37

Не, так не бывает, контрольные точки одна на другую никогда не нахлестываются. Сначала завершается одна, потом может начинаться другая.

Balu55 Jul 18 2019 at 14:07

т.е. если во время выполнения одной точки должна начаться другая, новая дожидается выполнения текущей или прерывает ее?

erogov Jul 18 2019 at 14:43

Это, мне кажется, неправильная постановка вопроса. Если у нас работает контрольная точка (неспеша) и мы видим, что размер журнала приближается к пороговому значению, то нам не надо ни прерывать текущую точку, ни сразу после нее запускать следующую. Надо просто продолжить выполнение текущей, но ускориться.
Там какой-то такой адаптивный механизм и реализован. Деталей я сходу не вспомню, но если интересно, могу покопаться.

Balu55 Jul 18 2019 at 15:43

Спасибо, переспросил у коллег кто разбирался с проблемой быстродействия бд, было подозрение что из за частых пересечений чекпоинтов была просадка, но как оказалось дело было в другом

vladimirice Jul 20 2019 at 16:31

А в чем было дело? Очень интересно, может быть какой-то интересный кейс тюнинга?

vladimirice Jul 20 2019 at 13:08

Надо просто продолжить выполнение текущей, но ускориться.

Ускорение ведь возможно вроде бы только за счет увеличения расходуемых ресурсов железа и то, наверное, есть предел распараллеливания, обусловленный самим алгоритмом.

Думаю тут интереснее в первую очередь не внутренности алгоритма, а возможность деградации производительности системы в связи с неоптимальным процессом выполнения контрольных точек.

Правильно ли я понял, что процесс checkpointer это популярный кандидат (один из кандидатов) на оптимизацию, если вдруг система «ни с того ни с сего» начала работать медленнее?

erogov Jul 20 2019 at 13:56

Ускорение возможно за счет того, что в обычном режиме контрольная точка не пишет данные на максимальной скорости. Она должна успеть записать все грязные буферы за время checkpoint_timeout × checkpoint_completion_target. Процесс сам регулирует задержки, чтобы уложиться в этот интервал. А когда надо ускориться, уменьшает задержку.

Проблема будет в том случае, когда даже на максимальной скорости контрольная точка не успевает уложиться в заданные рамки. Тогда надо либо сознательно увеличивать интервал (если он неоправданно маленький), либо колдовать с настройками ОС и железом. А со стороны PostgreSQL там оптимизировать-то нечего. Только не делать контрольные точки чаще, чем нужно.

vladimirice Jul 20 2019 at 16:30

Если я все правильно понял, контрольная точка не пишет на максимальной скорости в том числе и потому, чтобы не расходовать железные ресурсы. При необходимости ускорения железные ресурсы начнут больше расходоваться и можно «неожиданно» получить деградацию производительности. То есть цена ускорения это всегда потенциальная деградация?

Или алгоритм настолько умен, что даже рост нагрузки за счет ускорения можно прогнозировать? Вернее, есть параметр, ограничивающий его ресурсы, который я упустил, когда читал статью

erogov Jul 20 2019 at 18:14

Нет, никаких других ограничителей, кроме названных, нет.

Насчет деградации вопрос спорный. Сама по себе контрольная точка не начнет молотить быстрее, только если не возрастет нагрузка и можно будет не успеть. Поэтому теоретически должна быть не деградация, а просто некий предел производительности системы.

А деградация (как внезапный провал) будет в том случае, если ОС долго откладывает физическую запись на диск и потом начинает писать сразу и много. Мне это так видится.

В этом смысле любой фоновый асинхронный процесс — это хорошо, потому что нагружает систему равномерно. А любая синхронная деятельность (когда нельзя продолжать, пока что-то не сделано) — наоборот, плохо.

vladimirice Jul 20 2019 at 13:09

В заключение все нежурналируемые таблицы перезаписываются с помощью образов в init-файлах.

имеются ввиду слои init, которые остались на диске на момент отказа системы? Могут ли они быть повреждены, ведь они могут быть в неконсистентном состоянии (на то и WAL для других операций)

erogov Jul 20 2019 at 13:18

Да, именно они. Повредить их трудновато, потому что они создаются в момент создания временного объекта и больше не меняются. А для таблиц это вообще файл нулевого размера.

vladimirice Jul 20 2019 at 13:10

Блокируют ли грязную буфферную страницу процессы checkpointer/background writer перед записью ее на диск?

erogov Jul 20 2019 at 13:19

Конечно, ведь нельзя допустить, чтобы страница изменилась, пока ее записывают. Но читать ее ничто не мешает.

vladimirice Jul 20 2019 at 16:26

Очень заинтересовал момент доступности страницы для чтения при pin :)

А если страница вытесняется на диск с целью заменить ее на новую с диска (все страницы буффера заняты, требуется вытеснение)? В этом случае «можно читать» вероятно, не работает, потому что содержимое страницы в какой-то момент полностью будет изменено.

erogov Jul 20 2019 at 18:20

Закрепление (aka pin) используется, когда процесс работает со страницей. При этом страницу можно не только читать, но и изменять в некоторых пределах. Но вытеснять нельзя — закрепление этого не позволяет.

Но в данном случае используется не закрепление, а другая блокировка, которая не дает странице меняться. Я про блокировки планирую подробно написать, как только с журналом закончу.

Igreh Jan 25 2021 at 16:43

Спасибо за статьи!
Будьте добры, ткните еще раз в объяснение такого факта:

чем реже можно позволить себе контрольные точки, тем лучше — это сокращает накладные расходы

логика, схожая с автовакуумом, здесь судя по всему не применима, когда лучше чаще на большие таблицы натравливать автовакуум, чтобы в один момент обрабатывать меньшее кол-во страниц.
В любом случае грязные страницы в буферном кэше должны попасть на диск. Только при увеличении checkpoint_timeout'a кол-во этих страниц будет больше на каждый чекпоинт. Или нет?
Что я упускаю? О каких именно накладных расходах речь?
Спасибо

erogov Apr 5 2021 at 19:10

Ой, я почему-то пропустил ваш комментарий. Но лучше поздно...

Накладные расходы связаны с двумя вещами.
Во-первых, контрольная точка не просто записывает грязные страницы, но и синхронизирует изменения с диском. Чем реже это происходит, тем меньше ввод-вывод. При короткой контрольной точке только успели поменять страницу — уже надо писать на диск. А при длинной страница может многократно измениться, и потом один раз записаться.
Во-вторых, при первом изменении страницы после завершения контрольной точки в журнал пишется полный образ (FPI, full page image). Это нужно, чтобы защититься от неатомарной записи страницы в случае сбоя. Поэтому чем реже контрольные точки, тем реже пишется FPI и тем меньше размер журнала.
Все это, конечно, в предположении, что одна и та же страница меняется неоднократно на протяжении какого-то времени.

Только при увеличении checkpoint_timeout'a кол-во этих страниц будет больше на каждый чекпоинт.

Тут не на количество надо смотреть, а на скорость. Да, страниц наверное будет больше, но и времени на их запись тоже больше. Поэтому поток примерно одинаковый.