Comments / Profile of GrishinAlex / Habr

How to become an author

Александр Гришин @GrishinAlex

Product manager

ProfileArticles20PostsNews1Comments51

Раздувание таблиц в PostgreSQL: работа с vacuum и pg_repack

GrishinAlex Jun 27 at 06:21

Спасибо за инетрес к статье!
Если говорить про foreign keys и views, чаще всего всё будет работать, но лучше перед использованием проверить зависимости (чтото типа SELECT * FROM pg_depend WHERE refobjid = 'your_table'::regclass;)
Триггеры переносятся, но я бы рекомендовал проверить их после репака.

Насчет шардирвоания. Увы я не эксперт. Прошу прощения, не подскажу.

Раздувание таблиц в PostgreSQL: работа с vacuum и pg_repack

GrishinAlex Jun 27 at 06:15

Насколько я знаю проблема с ограничениями целостности с отложенной проверкой в pgrepack всё ещё актуальна, и её нужно учитывать. Это обсуждалось и в официальном трекере pg_repack и не закрыто как решённое. Проблема затрагивает достаточно специфичные сценарии, но может быть критичной. Можно также рассмотреть pg_squeeze как альтернативу, хотя он тоже не всегда корректно работает с отоложенными проверками.

Раздувание таблиц в PostgreSQL: работа с vacuum и pg_repack

GrishinAlex Jun 26 at 11:07

Спасибо большое за ваш комментарий, но я явно отразил этот момент с диском в разделе "Ограничения и Грабли".
Ну и вы абсолютно правы - магии не бывает. Разные инстурменты работают с разными нюансами и ограничениями. Нужно правильно выбирать их под свои задачи.

Раздувание таблиц в PostgreSQL: работа с vacuum и pg_repack

GrishinAlex Jun 26 at 11:04

Спасибо за столь развернутый и подробный комментарий. Позволю себе отредактироваить и отразить подсвеченные вами моменты в статье.

Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector

GrishinAlex Jun 26 at 10:37

Спасибо за валидный комментарий. Вы правы. Судя по всему в мае 2024 года в pg_vector действительно появилась поддержка HNSW. И если я правильно понял только для последних версий PG (16 и 17). Еще раз спасибо, я отредактирую статью по следам нашей дискусии.

Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector

GrishinAlex Jun 25 at 17:04

Спасибо за комментарий, согласен с вашим мнением. Поэтому пишу однозначно что лично я считаю что для реально большого и требовательного проекта можно посмотреть другие инструменты и предлогаю рейтинг.

Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector

GrishinAlex Jun 25 at 16:59

Благодарю за комментарий, буду продолжать эту тему дальше, подписывайтесь.

VMmanager, управление инфраструктурой через VMmanager API и Ansible

GrishinAlex Jun 20 at 19:29

Спасибо за интересную статью, про крутой инструмент!

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

GrishinAlex Jun 2 at 08:41

Спасибо за интерес к статье! Спасибо что напомнили этот мем, улыбнуло. Легенда говорил (а может и не говорил) 640кб должно хватить всем!

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

GrishinAlex May 30 at 09:16

Хорошее замечание, согласен с вами. Есть сборки для pg для 1С. В том числе в качестве готовой услуги в нашем облаке https://selectel.ru/services/cloud/managed-databases/postgresql-1c/

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

GrishinAlex May 30 at 09:12

Спасибо за интерес к статье!

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

GrishinAlex May 30 at 08:58

Спасибо за комментарий — отличный технический вопрос. Но у меня немного другое отношение к этой теме. Да, временные таблицы в PostgreSQL могут дать снижение производительности в определенных ситуациях. Но просто потому что устроены они иначе, чем в MS SQL.

Они создаются на уровне сессии, и не подпадают под autovacuum, и при больших объёмах без явного ANALYZE могут давать неоптимальные планы выполнения. Это особенно заметно при сложных JOIN или GROUP BY о чем действительно очень подробно и по делу написано в представленной вами статье.

PostgreSQL это не MS SQL. Поэтому подходы в лоб типа: "Просто возьми и сделай импортозамещение!" может дать не самый оптимальный результат. Нужно глубже разбираться с инструментами из которых мы строим приложение. И PostgreSQL очень крутой пример.

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

GrishinAlex May 30 at 08:44

Спасибо за такой развернутый и крутой комментарий! А еще за интерес к статье. Позволил себе дополнить первый раздел по следам описанных вами идей. Благодарю!

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

GrishinAlex May 30 at 08:10

Валидное дополнение, спасибо! Отражу в разделе про статистику. Благодарю!

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

GrishinAlex May 30 at 08:07

Спасибо за интерес к статье! Я дополню раздел про кластеризацию по следам вашего комментария. Благодарю.

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

GrishinAlex May 28 at 07:05

Отразил, спасибо за идею!

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

GrishinAlex May 28 at 06:07

Спасибо за валидный коммент! Да, такое действительно может случится и это классическая ошибка на реплике и возникает, когда долгий SELECT мешает применять WAL-журнал, и Postgres вынужден прервать запрос.

В разделе про HTAP я несколько раз указываю что нет и быть не может одной конфигурации подходящей под разные профили. По этому возможно лучшим решением будет разнести нагрузку на разные кластеры.

Ну и конечно обязательно наличие мониторинга и проактивных реакций. Авария по причине распухания одной из нод в кластере не должно стать для вас сюрпризом.

Асинхронно копируем объекты между регионами S3 с помощью Python

GrishinAlex Apr 22 at 16:37

Вы абсолютно правы, так будет куда оптимальнее. Спасибо за дальный совет!

Асинхронно копируем объекты между регионами S3 с помощью Python

GrishinAlex Apr 17 at 08:23

Со стороны нашей услуги мы гарантируем что ресурсов хватит и представляем в договоре SLA по досутпности S3 API 99,98%. Возможно в вашем кейсе есть проблема с производительностью со стороны клиентского приложения.

Асинхронно копируем объекты между регионами S3 с помощью Python

GrishinAlex Apr 17 at 08:20

Да, вы абсолютно правы. Разумеется, для фактической имплементации я бы рекомендовал использовать готовые клиенты, умеющие в S3 API: minio, aws cli, rclone и др. по. Как я указывал в заключении к статье, код и кейс представлены только для раскрытия принципиального подхода в реализации асинхронной репликации. Ведь любое приложение использует тот же S3 API что и python+boto3.

1