Методология статистического анализа производительности СУБД: опыт применения PG

Практическое применение статистического анализа производительности СУБД с использованием pg_expecto v.7: разбор инцидента и верификация гипотез

Математика производительности - когда статистика говорит громче слов

Telegram: @pg_expecto

MAX: PG_EXPECTO

GitHub - Комплекс pg_expecto для статистического анализа производительности и нагрузочного тестирования СУБД PostgreSQL

GitFlic - pg_expecto - статистический анализ производительности и ожиданий СУБД PostgreSQL

Глоссарий терминов | Postgres DBA | Дзен

Предыдущие материалы

PG_EXPECTO v.7 + DeepSeek: Статистический анализ инцидентов производительности СУБД PostgreSQL / Хабр

PG_EXPECTO v.7 + DeepSeek : Статистический анализ инцидента производительности СУБД PostgreSQL - интенсивная запись и дефицит RAM. | Postgres DBA | Дзен

PG_EXPECTO v.7 + DeepSeek : Статистический анализ инцидента производительности СУБД PostgreSQL - проблемы физического чтения. | Postgres DBA | Дзен

Предисловие

Целесообразность применения нейросети DeepSeek для анализа статистических данных и подготовки рекомендаций по итогам инцидентов обусловлена ограниченностью традиционных методов нагрузочного тестирования, нерелевантных в условиях стохастических пиковых нагрузок промышленных систем. В рамках настоящей работы на базе инструментария pg_expecto v.7 продемонстрирована эффективность перехода к статистическому анализу инцидентов PostgreSQL: от идентификации критических факторов до верификации гипотез оптимизации. Использование DeepSeek обеспечивает математически обоснованные выводы о причинах деградации производительности, что подтверждает высокую эффективность данного подхода для оперативной диагностики и повышения отказоустойчивости информационных систем.

Шаблон анализа инцидента производительности СУБД

Проанализировать причины инцидента производительности СУБД.
Подготовить рекомендации по оптимизации производительности СУБД по результатам анализа инцидента
Проконтролировать влияние рекомендованных изменений на производительность СУБД при аналогичной нагрузке.

Производительность СУБД

График изменения производительности СУБД

Инцидент производительности СУБД

Операционная скорость - снижается
Ожидания СУБД - растут

График изменения операционной скорости в течении часа до точки инцидента

График изменения ожиданий СУБД в течении часа до точки инцидента

1. Результат анализа нейросетью DeepSeek статистических данных по метрикам СУБД и ОС, подготовленных PG_EXPECTO v.7.

Проблемы СУБД

Критическое доминирование IO-ожиданий

В обоих периодах основным типом ожидания является IO (интегральный приоритет вырос с 0.6271 в тесте до 0.7789 в инциденте). Корреляция операционной скорости с IO-ожиданиями отрицательная и статистически значимая (−0.786 в инциденте), что означает: рост ожиданий напрямую снижает производительность.

Один запрос генерирует основную массу ожиданий

QueryID -6237913963540934095 вызывает 87% всех IO-ожиданий (в тесте — 87.23%, в инциденте — 87.37%). События: DataFileRead, DataFileWrite, SlruRead. Это указывает на конкретный проблемный запрос с интенсивными операциями чтения/записи данных и обращением к WAL (SlruRead).

Запись стала главным узким местом

В тестовом отрезке операционная скорость почти полностью определялась объёмом записанных блоков (R² = 0.95). В инциденте также сохраняется высокая корреляция скорости с записанными блоками (R² = 0.65), а грязные блоки сильно коррелируют с ожиданием IO (R² = 0.76) и с записью на диск (R² = 0.62). Это говорит о неспособности фоновых процессов своевременно сбрасывать грязные страницы.

Рост чтений с диска при высоком hit ratio

Несмотря на hit ratio shared buffers выше 99%, в инциденте появилась сильная корреляция операционной скорости с прочитанными блоками (R² = 0.73). Это означает, что даже 1% чтений, не попавших в кеш, создаёт непропорционально высокую нагрузку из-за большого объёма данных или неэффективных сканов.

Чрезмерное количество подключений

Параметр max_connections = 3000 при 8 ядрах CPU и 7.5 ГБ RAM создаёт избыточное потребление памяти и увеличивает накладные расходы на переключение контекста. Корреляции cs с us и in, хотя и высокие, имеют пониженный R² в инциденте, что указывает на смешанную природу загрузки.

Агрессивные настройки автовакуума

autovacuum_naptime = 1s, низкие scale_factor, autovacuum_max_workers = 4 могут вызывать частые сканирования и дополнительные IO-операции, усугубляя общую дисковую нагрузку.

Проблемы инфраструктуры

Острейший дефицит оперативной памяти

Свободная RAM составляет менее 5% на протяжении 100% времени инцидента (медиана свободной памяти — всего 119 МБ при 7.5 ГБ). Это приводит к вытеснению страничного кеша и росту обращений к диску, хотя сам свопинг не используется.

Лавинообразный рост процессов в состоянии uninterruptible sleep (procs b)

Количество процессов, заблокированных в ожидании IO, выросло с медианы 128 в тесте до 175 в инциденте, с сильным трендом (R² = 0.99, угол наклона 44.5). Это прямое следствие неспособности дисковой подсистемы обслуживать запросы.

Перегрузка очереди выполнения (procs r)

Очередь процессов, готовых к выполнению, превышает количество ядер CPU (8) в 100% времени. При этом CPU простаивает в ожидании IO (wa > 10% постоянно). Процессы не могут получить CPU, потому что заблокированы на IO, но планировщик держит их в очереди.

Высокий процент времени ожидания IO (wa)

Процент простоя CPU в ожидании IO превышает 10% весь период инцидента (достигая 33%). Это свидетельствует о том, что дисковая система не успевает обрабатывать поток запросов.

Корреляция грязных страниц с ожиданием IO

В инциденте размер грязных страниц сильно коррелирует с wa (R² = 0.88) и умеренно с bo (R² = 0.52). Это говорит о том, что механизм фоновой записи не справляется с потоком изменений: страницы накапливаются, и backend-процессы вынуждены синхронно сбрасывать их, блокируясь.

Недостаточная пропускная способность дисковой подсистемы

Несмотря на отдельные диски для WAL и данных, система не выдерживает пиковую нагрузку на запись. Виртуальные диски, вероятно, разделяют общую очередь ввода-вывода с другими виртуальными машинами на гипервизоре.

Параметры ядра dirty_ могут быть неоптимальны

vm.dirty_ratio = 10% (около 750 МБ) — лимит не достигается (реальные dirty pages до 16 МБ), но vm.dirty_expire_centisecs = 3000 (30 секунд) заставляет сбрасывать страницы по таймеру, а диск не успевает. Это приводит к росту wa.

Итоговые существенные различия метрик производительности СУБД и инфраструктуры до и после применения рекомендованных настроек

Операционная скорость (SPEED)

Медиана незначительно снизилась: с ~1 045 тыс. до ~1 011 тыс. (в пределах статистической погрешности).

Общие ожидания СУБД (WAITINGS)

Медиана немного уменьшилась: с ~746 тыс. до ~734 тыс. (‑1,6%).

Тренды vmstat (качество и скорость изменений)

procs → r (очередь на выполнение):

До: R²=0,83, скорость изменения 35,37 (очень высокий негативный тренд).
После: R²=0,47 (модель стала хуже), скорость снизилась до 16,16 (умеренный тренд) – положительная динамика, хотя абсолютные значения r выросли (медиана с 10 до 13).

procs → b (ожидание I/O):

До: R²=0,98, скорость 43,76 (критический рост).
После: R²=0,97, скорость 43,46 (столь же высокая) – проблема сохраняется.

cpu → wa (ожидание I/O): в обоих случаях позитивный тренд (улучшение), но классифицируется как «шум».

Относительные показатели (% времени превышения порогов)

r > ядер CPU: вырос с 66,7% до 82,2% – ухудшение (очередь процессов стала чаще превышать количество ядер).

wa > 10% и b > ядер CPU: остались на уровне 100% времени – дисковая подсистема по-прежнему перегружена.

свободная RAM < 5%: также 100% – память остаётся узким местом.

Грязные страницы (dirty pages)

Медиана размера грязных страниц выросла с ~18 МБ до ~30 МБ.

Ключевой запрос

По-прежнему один и тот же queryid (-6237913963540934095) вызывает ~87% всех ожиданий I/O, количество вызовов даже немного увеличилось (с 19,1 M до 19,6 M).

Сравнительный статистический анализ (коэффициенты корреляции и регрессии)

Связь операционной скорости с записанными блоками

До: корреляция 0,9856, R²=0,97 (ALARM).
После: корреляция 0,9920, R²=0,98 – ещё выше, зависимость от записи на диск осталась критической.

Корреляция dirty pages size с wa (ожидание I/O)

До: 0,9695, R²=0,94 (очень сильная).
После: 0,8815, R²=0,78 (снизилась, но всё ещё значима) – положительный эффект настроек VM.

Корреляции с bo (блоки, записанные на устройства)

IO и bo: была значимая (0,6761, R²=0,46) – после изменений отсутствует.
Записанные блоки и bo: была 0,7914 (R²=0,63) – после отсутствует.
Грязные блоки и bo: была слабая (0,6186, R²=0,38) – после отсутствует.
Это говорит о том, что запись стала более равномерной, пиковые сбросы перестали жёстко коррелировать с дисковыми операциями.

Корреляции контекстных переключений (cs)

cs и sy (system time): R² вырос с 0,78 до 0,89 – ядро стало тратить больше времени на переключения контекста относительно системного времени.
cs и us (user time) и cs и in (прерывания) остались на очень высоком уровне (R²>0,95).

Индекс приоритета корреляции (CPI)

dirty pages – wa снизился с 0,9518 до 0,7810 – переместился с 4‑го на 6‑е место в рейтинге, что подтверждает ослабление проблемы.
IO – bi (чтения) исчез из списка значимых корреляций (был 0,5343).

Анализ эффективности рекомендованных нейросетью настроек и итоговое влияние на производительность СУБД

Положительные эффекты

Уменьшилась корреляция между накоплением грязных страниц и простоями CPU в ожидании I/O (wa).
Исчезла прямая связь между объёмом записанных блоков PostgreSQL и фактической записью на диск (bo) – контрольные точки и фоновый writer работают более плавно.
Тренд роста очереди на выполнение (r) замедлился, хотя абсолютные значения выросли.

Отрицательные/нейтральные аспекты

Основная проблема – зависимость производительности от записи на диск – не устранена (корреляция скорости с записанными блоками осталась крайне высокой).
Процессы в непрерываемом сне (b) продолжают расти с прежней скоростью, а процент времени с превышением порогов wa и b остаётся 100%.
Медиана операционной скорости немного снизилась, что может быть следствием изменения характера нагрузки (рост числа вызовов проблемного запроса).

Вывод об эффективности

Рекомендации частично достигли цели: сгладили пиковые сбросы грязных страниц и уменьшили негативное влияние накопления dirty pages на ожидания.
Однако они не затронули корень проблемы – неэффективный запрос select scenario1(), на который приходится 87% всех ожиданий I/O.
Изменения в настройках ОС и СУБД дали локальные улучшения, но не смогли компенсировать недостатки прикладного уровня.

Для дальнейшей оптимизации необходимо:

Исследовать и оптимизировать запрос queryid (-6237913963540934095) (индексы, переписывание, изменение логики).
Рассмотреть возможность аппаратного ускорения дисковой подсистемы (например, размещение WAL на NVMe).
Продолжить мониторинг и при необходимости скорректировать bgwriter_delay (если позволит версия) или параметры автоочистки.

Послесловие

Практическое применение методологии статистического анализа на базе pg_expecto v.7 позволило не только идентифицировать критические факторы деградации производительности (доминирование IO-ожиданий, дефицит памяти, неэффективный запрос), но и количественно верифицировать эффект от предложенных изменений. Корреляционно-регрессионный анализ доказал, что настройки параметров ядра и СУБД привели к снижению зависимости между накоплением грязных страниц и простоями CPU, а также к более равномерной записи на диск. Вместе с тем, сохранение высокой корреляции операционной скорости с объемом записанных блоков и неизменная доля ожиданий по проблемному запросу указывают на необходимость дальнейшей оптимизации на прикладном уровне.

Таким образом, представленная методология обеспечивает объективную основу для принятия решений и позволяет отделить результаты целенаправленных изменений от фоновых колебаний системы, что подтверждает ее ценность как инструмента повседневной практики сопровождения высоконагруженных СУБД.

Методология статистического анализа производительности СУБД: опыт применения PG_EXPECTO v.7 на реальном инциденте

Предыдущие материалы

Предисловие

Шаблон анализа инцидента производительности СУБД

Производительность СУБД

Инцидент производительности СУБД

1. Результат анализа нейросетью DeepSeek статистических данных по метрикам СУБД и ОС, подготовленных PG_EXPECTO v.7.

Проблемы СУБД

Проблемы инфраструктуры

Рекомендации по итогам анализа инцидента

Рекомендации по оптимизации СУБД

Рекомендации по оптимизации инфраструктуры

2.Применение рекомендованных изменений СУБД и ОС

3. Анализ нейросетью DeepSeek влияние изменений на производительность СУБД при аналогичной нагрузке.

Настройки СУБД PostgreSQL

Настройки ядра Linux (vm)