Статьи / Профиль drema201 / Хабр

@drema201

Пользователь

Подписчики

ПрофильСтатьи13Посты2НовостиКомментарии26

drema201 24 фев в 14:03

LWLock:LockManager, fastpath и всё-всё-всё

Средний

6 мин

5.6K

Блог компании АО «ГНИВЦ»PostgreSQL * Базы данных *

Кейс

Общеизвестным является тезис о том, что от избыточного индексирования страдают только DML-операции, а SELECTы только получают разнообразные бенефиты.
Однако существуют определённые нюансы, которые могут разрушить данную стройную картину мира.

Я попробую продемонстрировать возможную проблему на тестовом примере (кстати, почти аналогичная проблема наблюдалась в реальной ПРОМ-системе).

drema201 12 фев в 14:02

Один «странный» случай индексного сканирования

Средний

4 мин

8.2K

Блог компании АО «ГНИВЦ»PostgreSQL * Базы данных * SQL *

Кейс

Эта история началась с исследования проблем производительности на высоконагруженной базе данных Postgres. Табличка, которая была предметом исследования, довольно небольшая (~100,000 записей), но очень активно используемая.

В процессе исследования я увидел, что Postgres использует индексный доступ по абсолютно неселективному критерию, фактически это был "INDEX FULL SCAN" в терминологии Oracle. Интуиция, наработанная на другой промышленной базе, вопила: "что-то здесь не так!"

Но что?

+13

drema201 24 дек 2025 в 13:03

Oracle — приблизительное разбиение на диапазоны

Простой

3 мин

7.1K

Блог компании АО «ГНИВЦ»Базы данных * SQL * Oracle *

Кейс

Недавно у меня возникла задача по разбиению мульти-терабайтной таблицы на равные диапазоны по числовому полю id. Причём данные распределены по id крайне неравномерно, где-то есть большие "лакуны", где-то непоследовательная генерация и т.д., и т.п. Конечно, можно применить честное решение в лоб — использовать функцию NTILE, но я довольно быстро осознал, что это приведёт к многочасовому запросу с большой вероятностью упасть из-за недостатка TEMP. Но, к счастью, зачастую в таких задачах, как и в моём случае, идеальное разделение на диапазоны не требуется, достаточно более-менее приличного.

Я решил провернуть небольшой трюк для получения приблизительного разделения. Давайте посмотрим, что у меня получилось на модельном примере.

drema201 10 ноя 2025 в 13:06

Как отследить трафик PostgreSQL

Средний

8 мин

Блог компании АО «ГНИВЦ»PostgreSQL * Базы данных * SQL *

Туториал

Перевод

Недавно я изучал детали реализации взаимодействия клиента PostgreSQL с базой данных и был удивлён, насколько легко просматривать трафик PostgreSQL с помощью wireshark. Когда я поделился своим удивлением в социальной сети, меня попросили привести пример того, как это сделать.

+11

drema201 1 окт 2025 в 13:32

О параллельности при создании индексов в Postgres (часть 1)

4 мин

6.5K

Блог компании АО «ГНИВЦ»SQL * Базы данных * PostgreSQL *

Кейс

Добрый день, коллеги!

Сегодня я хочу поделиться некоторыми проблемами (и решениями) при создании большого количества индексов и ограничений целостности (констрейнтов) одновременно.

Но для начала хочу порассуждать о том, почему вообще возникли такие вопросы.

При развёртывании новой крупной базы данных с «нуля» (например путём миграции), возникает необходимость построить также большое количество индексов в весьма ограниченное тех. окно. Как известно, процесс построения индекса это не только ~~ценный мех~~ IO, но и довольно большое количество CPU при достаточно производительной дисковой подсистеме. Чем больше ядер вы сможете задействовать — тем быстрее пойдёт процесс (в общем случае утверждение, конечно, спорное, но в моём случае обоснованное и проверенное).

На пути «параллелизации» всего и вся возникают разнообразные проблемы, про 3 такие проблемы я и хочу рассказать сегодня.

drema201 10 сен 2025 в 13:29

О «залипании» процесса checkpoint и archive_timeout в Postgres

4 мин

10K

Блог компании АО «ГНИВЦ»PostgreSQL * Базы данных * SQL *

Кейс

Добрый день, коллеги!

Недавно мы столкнулись со следующей проблемой при тестировании СУБД PostgresPro под высокой нагрузкой: процесс представлял собой массированную многопоточную заливку данных на протяжении многих часов,а данных было около 20 ТБ, потоков — 75.

В процессе загрузки наблюдалось следующее явление: через некоторое время процесс checkpointer переставал делать контрольные точки в зависимости от других параметров БД либо сразу, либо через 2-3 часа.

+10

drema201 2 дек 2024 в 13:51

О внутренних аспектах внешних ключей

Сложный

5 мин

3.6K

Блог компании АО «ГНИВЦ»PostgreSQL *

Кейс

Эта история начиналась с процесса валидации FK на очень больших таблицах (1TB+).
Далее я расскажу, какие нетривиальные проблемы встретились по пути, как я их решал, и каким образом можно исследовать довольно сложные проблемы производительности базы данных Postgres.

+11

drema201 23 авг 2024 в 11:48

pg_pathman vs декларативное секционирование — что лучше?

Средний

8 мин

4.1K

Блог компании АО «ГНИВЦ»PostgreSQL *

Мнение

Добрый день, коллеги! Как известно, компания "Postgres Professional" более не рекомендует использовать секционирование с использованием pg_pathman, а рекомендует использовать вместо него декларативное секционирование. Однако помимо синтаксического сахара и утилитарного кода по поддержке интервального (в стиле Oracle) секционирования, я обнаружил для себя ещё одну проблему в такой миграции (переходе). Надеюсь, коллеги из PGPro доработают декларативное секционирование к моменту окончательного выпиливания pg_pathman.

drema201 25 июл 2024 в 14:11

Использование метода «почти бесконечного» запроса для сопоставления CPU интенсивных операций в Oracle

Средний

2 мин

1.5K

Блог компании АО «ГНИВЦ»Oracle *

Мнение

Не так давно я опубликовал заметку о некотором варианте иерархического запроса, который выполняется очень долго и неограниченно и не потребляет иных ресурсов базы данных кроме CPU.

Возникла довольно естественная идея использовать этот метод для сопоставления CPU интенсивных задач в БД Oracle. Например, если мы встраиваем такую прожорливую CPU-функцию в наш пайплайн исполнения SQL-запроса так, чтобы она выполнилась более миллиарда раз, то получаем возможность сравнить затраты на CPU в разных случаях.

В данном случае мы будем сравнивать по производительности различные функции хеширования в Oracle: ORA_HASH и различные варианты STANDARD_HASH.

drema201 5 дек 2023 в 15:01

Timed wait events in PostgreSQL

Сложный

7 мин

5.4K

Блог компании АО «ГНИВЦ»PostgreSQL *

Мнение

Перевод

перевод второй статьи известного специалиста в области Oracle Фрица Хугланда на тему трассировки postgresql при помощи bpftrace (первую статью я перевёл ранее см. Использование bpftrace для трассировки выполнения запросов в postgres)

drema201 3 ноя 2023 в 10:10

Использование uprobe/uretprobe в bpftrace-скриптах вместо USDT probe

Сложный

3 мин

1.4K

Блог компании АО «ГНИВЦ»PostgreSQL *

Мнение

В этой статье я приведу демонстрацию использования BPF uprobe/uretprobe для исследования внутреннего мира Postgres вместо usdt-проб.

drema201 23 окт 2023 в 14:04

Использование bpftrace для трассировки выполнения запросов в postgres

Сложный

8 мин

2.4K

Блог компании АО «ГНИВЦ»PostgreSQL *

Перевод

Эта статья перевод статьи известного специалиста в области Oracle (но про Postgres) — Фрица Хугланда — https://databaseperformance.hashnode.dev/using-bpftrace-for-postgres-query-execution-tracing.