Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

TantorLabs 30 мая в 11:55

Как провести нагрузочное тестирование БД PostgreSQL и ничего не забыть

Простой

14 мин

5.2K

Блог компании Тантор ЛабсPostgreSQL * Тестирование IT-систем * Базы данных * Высоконагруженные системы *

Туториал

При нагрузочном тестировании баз данных Tantor Postgres или других на базе PostgreSQL с использованием стандартного инструмента pgbench отсутствие фиксации деталей окружения (таких как конфигурация СУБД, характеристики сервера, версии ПО) часто приводит к нерепрезентативным результатам и необходимости повторных тестов. В статье рассматривается разработанный автором инструмент pg_perfbench, который призван решить эту проблему.

GrishinAlex 29 мая в 12:00

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Средний

12 мин

20K

Блог компании SelectelСистемное администрирование * Облачные сервисы * Базы данных * PostgreSQL *

Мнение

Когда вы разворачиваете веб-приложение, чаще всего у вас веб-сервер, бэкенд, база данных и авторизация оказываются на одном сервере. Первые пользователи, обычно тестировщики и менеджер, счастливы — все летает. Но потом приложение выходит в продакшн и начинается боль. Запросы тормозят и отвечают по пять секунд, CPU не загружен даже на треть, веб-сервер швыряет 504 Gateway Timeout и т. д. И вот вы сидите ночью и чините прод, потому что PostgreSQL — не просто «табличка с данными», а сложный инструмент с кэшем, индексами, буферами и планировщиком запросов.

Привет, Хабр! Меня зовут Александр Гришин, я руководитель по развитию продуктов хранения данных в Selectel и отвечаю за облачные баз данных и объектное S3 хранилище. В работе я часто сталкиваюсь с вопросами о производительности PostgreSQL, поэтому собрал практические советы для разработчиков, инженеров и архитекторов облачной инфраструктуры. В статье рассмотрим, как правильно использовать индексы, анализировать планы выполнения запросов и избегать типичных ошибок при проектировании схемы. Погнали!

Читать дальше →

+78

NeTRuS-Dev 29 мая в 09:12

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Средний

22 мин

25K

Блог компании AvitoTechБазы данных * DIY или Сделай самData Engineering * Big Data *

Обзор

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы.

В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение.

В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

+40

RenegadeMS 28 мая в 14:50

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Простой

3 мин

2.5K

SQL * Data Engineering * Open source * Базы данных *

Кейс

Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Мне показалось странным, что в 2025 году до сих пор нет удобной zero-setup SQL-песочницы для локальных данных.

Так родился PondPilot - open-source инструмент для анализа данных, работающий прямо в браузере, без серверов и настройки.

+15

dub0v 28 мая в 07:18

Быстрый старт в маскировании данных PostgreSQL с инструментом pg_anon

Простой

9 мин

2.7K

Блог компании Тантор ЛабсPostgreSQL * SQL * Информационная безопасность * Базы данных *

Туториал

В этой статье поговорим о не самом гламурном, но жизненно важном — маскировании данных. Маскирование может касаться имён, телефонов, номеров карт, медицинских диагнозов и другой чувствительной информации. Если ваша компания до сих пор передает данные подрядчикам или аналитикам как они есть в базе, это в один «прекрасный» момент обязательно обернётся репутационной или финансовой проблемой для бизнеса.

В этой статье разберём, зачем нужно маскирование, какие данные требуют защиты, и представим opensource-инструмент, который поможет решить эти задачи гибко и эффективно.

GrishinAlex 27 мая в 08:17

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

Средний

13 мин

20K

Блог компании SelectelPostgreSQL * Базы данных * Облачные вычисления * Облачные сервисы *

Мнение

В облачном мире PostgreSQL возникает много вопросов. Какую конфигурацию выбрать для старта кластера? Сколько оперативной памяти и ядер CPU нужно под мою базу данных? Нужны ли под такой профиль нагрузки высокочастотные процессоры? Какое должно быть соотношение RAM к Storage в кластере? Хватает ли ресурсов и на системные службы, и на кэширование запросов? Не переплачиваю ли я?

Всем привет! Меня зовут Гришин Александр, я руководитель по развитию продуктов хранения данных в Selectel, отвечаю за объектное S3-хранилище и облачные базы данных. В этой статье я поделюсь своими практическими рекомендациями и ориентирами по планированию использования ресурсов кластера в PostgreSQL — в зависимости от типа и профиля нагрузки, размера данных и характера доступа к ним. Погнали!

Читать дальше →

+76

ITSumma 26 мая в 17:47

Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

Средний

17 мин

8.5K

Блог компании ITSummaБазы данных * Серверная оптимизация * Серверное администрирование * Системное администрирование *

Туториал

Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений мы и проведем ниже.

СОДЕРЖАНИЕ

0. В каких случаях нужно задуматься о замене Prometheus
1. Обзор решений для долгосрочного хранения метрик
2. Сравнение решений: Thanos, Cortex, Mimir и VictoriaMetrics
3. Как выбрать подходящее решение

3.1. Что важнее: простота или масштаб?
3.2. Стоимость
3.3. Надёжность и высокая доступность
3.4. Насколько подходит по задачам?

4. Миграция с Prometheus на долгосрочное хранилище
5. Сохранение алертов и дашбордов
6. Как избежать потери данных при миграции

6.1. Параллельный запуск и проверка
6.2. Мониторинг очередей remote_write
6.3. Аккуратное отключение Prometheus
6.4. Резервное копирование
6.5. Тестирование

7. Лучшие практики эксплуатации долгосрочного хранилища метрик
8. Высокая доступность и избыточность
9. Мониторинг состояния хранилища метрик
10. Обработка долгосрочных запросов и типовые ошибки

10.1 Используйте recording rules для тяжёлых агрегаций
10.2 Не злоупотребляйте лейблами с высокой кардинальностью
10.3 Downsample старые точки данных
10.4 Осторожно с федерацией Prometheus

11. Обслуживание и обновления (Maintenance & Upgrades)
12. Итого. Как жить с продакшн-наблюдением

Читать дальше →

+22

andrey7657956 26 мая в 11:18

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Средний

15 мин

3.7K

Блог компании KTSPython * Тестирование IT-систем * Базы данных * PostgreSQL *

Туториал

Привет! Я Андрей Сташок, бэкенд-разработчик в KTS. В этой статье я расскажу о запуске параллельных тестов через pytest-xdist.

Почему это важно?

Объясню на нашем примере. При разработке продуктов мы постоянно выполняем юнит-тестирование. Раньше мы проверяли все последовательно, и с расширением тестовой базы время проведения испытаний заметно возрастало. Распараллеливание через pytest-xdist помогло нам сильно ускориться, и сегодня я хочу поделиться этим трюком с вами.

Я расскажу, как запускать параллельные тесты для реляционной БД PostgreSQL (с драйверами asyncpg и psycopg2) и key-value БД Redis. Для подключения к реляционной БД мы будем использовать SQLAlchemy, а для Redis — библиотеку redis. Кроме того, я рассмотрю, как автоматизировать выполнение миграций при каждом запуске тестов с использованием alembic.

+30

LeadsTeam 26 мая в 07:33

Как мы уменьшали размер базы данных

Средний

7 мин

6.1K

DevOps * MySQL * Базы данных *

Кейс

Больше года назад мы в LEADS.SU задумались над высокодоступностью нашей БД и начали искать различные варианты. Круг решений сужало то, что мы используем TokuDB, который уже не поддерживается. Вариантов было несколько, но точно было понятно что запуск кластера повлечет за собой полное клонирование файлов /var/lib/mysql, к тому моменту размер этой директории уже перевалил за пару сотен гигабайт и мы задумались над ревизией данных, что привело к долгоиграющему процессу по уменьшению размера БД.

По ходу уменьшения размера базы данных мы сталкивались с различными трудностями и препятствиями, в этой статье я ретроспективно опишу весь пройденный нами путь, полученные результаты и совершенные ошибки.

+10

TantorLabs 23 мая в 14:29

Работа с длинными строками в PostgreSQL

Средний

9 мин

6.1K

Блог компании Тантор ЛабсPostgreSQL * Базы данных * 1С * Высоконагруженные системы *

Обзор

Если в таблицах БД PostgreSQL есть поля большого размера, при выгрузке часть строк таких таблиц может не выгружаться с выдачей ошибки ERROR: out of memory. Столкнуться с подобной ситуацией можно, например, при выгрузке утилитой pg_dump таблиц, в которых хранятся XML-документы, или при выгрузке таблицы public.config системы «1C:Предприятие». В статье рассматриваются причины возникновения подобных ошибок и способы решения проблемы.

+18

Bright_Translate 23 мая в 13:01

Сервер, которому не суждено было жить

Простой

7 мин

11K

Блог компании RUVDS.comБазы данных * Настройка Linux * Серверное администрирование * Системное администрирование *

Кейс

Перевод

На днях я прочитал новость, которая оживила воспоминания о важном — и болезненном — эпизоде моей карьеры.

Это история о доверии, технологиях… и задачах, которые не всегда можно решить.

Где-то 16 лет назад со мной связался давний друг. Его беспокоила ситуация, связанная с одним общим знакомым.

Если в двух словах, то дело было в том, что один наш знакомый предприниматель — администратор и владелец нескольких компаний — внезапно скончался. Это был человек, который рулил всеми процессами, и его уход поставил жену с детьми в затруднительное положение.

Читать дальше →

+32

daria-gal 22 мая в 12:09

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

6 мин

2.5K

Блог компании MWS AIИскусственный интеллектМашинное обучение * Базы данных *

Способность открытых LLM шутить, причем по-доброму, могла бы расширить применение ИИ во многих сферах – образовании, терапии, обслуживании клиентов. Так что мы с коллегами из Лаборатории естественного языка НИУ ВШЭ задались этим вопросом и попытались разработать собственную методологию курирования (фильтрации и аннотирования) наборов данных для генерации доброго юмора на малых LM. По всем научным канонам мы ее описали и оценили в этом препринте. А здесь я постараюсь рассказать о ней чуть короче и менее научно.

dipweb 22 мая в 06:15

Правильный порядок колонок в B-tree индексах PostgreSQL или правило ESR

Средний

9 мин

7.9K

Серверная оптимизация * Базы данных * PostgreSQL * SQL * Data Engineering *

Из песочницы

Когда в проекте используется составной B-tree индекс, важно не просто "создать индекс", а сделать это правильно — иначе запросы могут не только не ускориться, но и начать работать медленнее. Возникает логичный вопрос: как выбрать порядок колонок, чтобы индекс действительно работал эффективно? Брутфорсом? По интуиции? По селективности?

В этой статье я расскажу, как подходить к построению составных индексов в PostgreSQL, на что реально влияет порядок колонок. Также разберём простое правило ESR, которое помогает упростить выбор и получать стабильный прирост производительности на всех стендах.

+21

LesnoyChelovek 21 мая в 13:08

Секционируй и властвуй: делимся нетайными знаниями о секционировании в Postgres Pro

Средний

13 мин

3.7K

Блог компании Postgres ProfessionalPostgreSQL * Базы данных * Высоконагруженные системы *

Туториал

В арсенале Postgres Pro есть мощное, но порой недооцененное оружие — декларативное секционирование. Оно только звучит сложно, а на деле позволяет элегантно «нарезать» гигантские таблицы, превращая их из неповоротливых монстров в управляемые и быстрые структуры. Делимся нетайными знаниями, которые помогут оптимизировать запросы и упростить жизнь.

+16

badcasedaily1 20 мая в 19:01

Проблема мягкого удаления (deleted_at) и как её решить

Простой

4 мин

11K

Блог компании OTUSБазы данных * PostgreSQL *

Обзор

Привет, Хабр!

В этой статье рассмотрим классическую проблему «мягкого удаления» на уровне схемы баз данных и её влияние на аналитику.

Почти в каждой системе встречается требование «не удалять данные окончательно».

Kmamish 19 мая в 13:27

Как заставить вашу базу данных летать, а не ползать. Часть 1 масштабирование и репликация

Средний

10 мин

14K

Блог компании SENSEPostgreSQL * Базы данных * SQL * MySQL *

Туториал

Всем привет! Меня зовут Илья Криволапов, тружусь системным аналитиком в SENSE на проекте одного из цветных банков РФ. В профессии я уже пятый год и, несмотря на фамилию, ломал прод всего лишь несколько незначительных раз (надеюсь).

На досуге я преподаю в университете дисциплину «Хранение и обработка больших объемов данных» и за все время у меня накопилось много полезной информации. Непростительно хранить такой клад у себя в столе, поэтому я подготовил для читателей Хабра ультимативный гайд по оптимизации или хорошему такому, грамотному проектированию баз данных с расчетом на масштабирование.

Всего в цикле будет 3 статьи. В первой поговорим о двух разных подходах масштабирования БД и о том, как лучше его делать и как лучше не делать (Никогда. Пожалуйста).

Кому будет полезно? Всем отвечающим за «здоровье» базы данных: DBA, архитекторам, DevOps-инженерам, аналитикам и разработчикам.

Согласны? Узнали? Тогда поехали!

+11

Kirill__Kr 19 мая в 13:07

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Средний

5 мин

4.8K

Блог компании Профи.руБазы данных * Data Engineering * Хранение данных *

Мнение

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий.

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

alealandreev 19 мая в 10:15

Максимизация производительности ScyllaDB

Средний

14 мин

1.7K

NoSQL * Базы данных * Хранение данных * Data Engineering *

Туториал

Из песочницы

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

Sber 16 мая в 09:30

Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами

Сложный

9 мин

4.1K

Блог компании СберМашинное обучение * SQL * Базы данных *

Кейс

В современных компаниях корпоративные хранилища данных (Data Warehouse) играют критически важную роль, обеспечивая централизованное хранение и обработку больших объёмов информации. Данные поступают из разнообразных источников: операционных систем, CRM, ERP, IoT-устройств, веб-аналитики, мобильных приложений и других платформ, отражая все аспекты деятельности организации. На основе этой информации компании формируют разного рода отчётность, отслеживают ключевые показатели эффективности (KPI), оптимизируют бизнес-процессы, прогнозируют рыночные тенденции и принимают стратегические решения.

Эффективная работа с хранилищем невозможна без участия бизнес- и системных аналитиков, которые проектируют структуры данных, очищают и объединяют информацию, адаптируя решения под меняющиеся задачи. С ростом объёмов данных и требований к скорости анализа даже опытные команды сталкиваются с вызовами. Рутинные операции — проектирование схем, поиск таблиц, проверка качества данных — требуют не только технических навыков, но и глубокого понимания бизнес-контекста. Большую часть времени занимает написание и оптимизация SQL-запросов, что становится «узким местом» в условиях динамично меняющихся требований.

Ошибки в SQL-запросах или недостаточное знание структуры данных приводит к потерям времени и снижению точности аналитики. Для решения этих проблем на помощь приходят технологии на основе больших языковых моделей (LLM), таких как GigaChat, GPT, BERT или DeepSeek. Обученные на исторических данных и журналах запросов, они способны автоматизировать подбор таблиц, JOIN-условий и шаблонов SQL.

+10

badcasedaily1 15 мая в 16:10

Зачем нужен fillfactor в PostgreSQL

Простой

4 мин

5.1K

Блог компании OTUSБазы данных * PostgreSQL *

Обзор

Привет, Хабр!

Один параметр PostgreSQL может похоронить вашу производительность, если вы о нём забудете — это fillfactor. Почему однократная настройка числа приводит к неожиданным page split, bloat и мучительному откату запросов? Давайте разбираться.

+15

1 2 ...

10 11

13 14 ...

93 94

Базы данных *

Как провести нагрузочное тестирование БД PostgreSQL и ничего не забыть

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Быстрый старт в маскировании данных PostgreSQL с инструментом pg_anon

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

СОДЕРЖАНИЕ

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Как мы уменьшали размер базы данных

Работа с длинными строками в PostgreSQL

Сервер, которому не суждено было жить

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

Правильный порядок колонок в B-tree индексах PostgreSQL или правило ESR

Ближайшие события

Секционируй и властвуй: делимся нетайными знаниями о секционировании в Postgres Pro

Проблема мягкого удаления (deleted_at) и как её решить

Как заставить вашу базу данных летать, а не ползать. Часть 1 масштабирование и репликация

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Максимизация производительности ScyllaDB

Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами

Зачем нужен fillfactor в PostgreSQL

Вклад авторов