Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

Carrot78rus 3 июн в 13:06

Почему граф в RAG работает лучше, чем вы думаете… но не так, как вам рассказали

Средний

9 мин

4.6K

Блог компании MWS AIБазы данных*Искусственный интеллект

Мнение

В RAG-решениях все чаще обращаются к графовым базам данных. В этой статье я опишу своё мнение относительно того, в каких ситуациях графовые базы данных действительно оправданы в RAG, а в каких стоит остаться на традиционном векторном подходе. Это может быть полезно для разработчиков и исследователей, которые ищут оптимальные инструменты для построения RAG-решений и хотят понять, когда графовые базы данных могут помочь в их задачах.

kubelet 3 июн в 05:03

Вся мощь открытого исходного кода в PostgreSQL

Средний

11 мин

4.2K

Блог компании ФлантDevOps*PostgreSQL*Open source*Базы данных*

Перевод

PostgreSQL — одна из самых популярных СУБД, и это во многом благодаря открытому исходному коду. В статье рассказывается о том, как открытость кода влияет на развитие PostgreSQL и создание сообщества вокруг неё.

+23

Vjatcheslav_S 2 июн в 13:09

Соединение SortMergeJoin в Apache Spark

Простой

6 мин

474

Блог компании АО «ГНИВЦ»Hadoop*Big Data*Data Engineering*Базы данных*

Обзор

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта.

punhin 1 июн в 04:31

Как пройти… к третьей нормальной форме?

Простой

7 мин

5.4K

Базы данных*Учебный процесс в IT

Из песочницы

Как преподаватель, могу сказать, что студентам непросто бывает привести базу данных к какому‑то осмысленному виду (не говоря уже про третью нормальную форму). Во‑первых, нередко «всё связано со всем», во‑вторых, в мало‑мальски сложной (в смысле, комплексной) задаче бывает трудно правильно спроектировать таблицы (то есть определить, какие таблицы должны быть в базе, как они должны быть связаны друг с другом, где и какая информация должна в них храниться). Помогает ли им в этом теория? И да, и нет. Дело в том, что нормализация данных говорит о желаемом виде каждой таблицы, и, преобразуя отдельно взятую таблицу к нормальной форме, мы также что‑то делаем со всей базой данных (добавляем новые таблицы, перемещаем между ними поля, и так далее) — это как сборка кубика Рубика. Второй проблемой здесь является то, что даже база данных, состоящая из единственной таблицы, не приведенной к первой нормальной форме, внезапно, тоже будет работать — криво‑косо, но будет! Теория — штука хорошая, но кое‑чего ей не хватает, а именно — задания точки отсчёта. Ведь для того, чтобы пройти к ~~библиотеке~~ третьей нормальной форме, для начала нужно понимать, где мы находимся.

Пройдёмте, товарищи!

+10

TantorLabs 30 мая в 11:55

Как провести нагрузочное тестирование БД PostgreSQL и ничего не забыть

Простой

14 мин

4.3K

Блог компании Тантор ЛабсPostgreSQL*Тестирование IT-систем*Базы данных*Высоконагруженные системы*

Туториал

При нагрузочном тестировании баз данных Tantor Postgres или других на базе PostgreSQL с использованием стандартного инструмента pgbench отсутствие фиксации деталей окружения (таких как конфигурация СУБД, характеристики сервера, версии ПО) часто приводит к нерепрезентативным результатам и необходимости повторных тестов. В статье рассматривается разработанный автором инструмент pg_perfbench, который призван решить эту проблему.

GrishinAlex 29 мая в 12:00

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Средний

12 мин

17K

Блог компании SelectelPostgreSQL*Базы данных*Облачные сервисы*Системное администрирование*

Мнение

Когда вы разворачиваете веб-приложение, чаще всего у вас веб-сервер, бэкенд, база данных и авторизация оказываются на одном сервере. Первые пользователи, обычно тестировщики и менеджер, счастливы — все летает. Но потом приложение выходит в продакшн и начинается боль. Запросы тормозят и отвечают по пять секунд, CPU не загружен даже на треть, веб-сервер швыряет 504 Gateway Timeout и т. д. И вот вы сидите ночью и чините прод, потому что PostgreSQL — не просто «табличка с данными», а сложный инструмент с кэшем, индексами, буферами и планировщиком запросов.

Привет, Хабр! Меня зовут Александр Гришин, я руководитель по развитию продуктов хранения данных в Selectel и отвечаю за облачные баз данных и объектное S3 хранилище. В работе я часто сталкиваюсь с вопросами о производительности PostgreSQL, поэтому собрал практические советы для разработчиков, инженеров и архитекторов облачной инфраструктуры. В статье рассмотрим, как правильно использовать индексы, анализировать планы выполнения запросов и избегать типичных ошибок при проектировании схемы. Погнали!

Читать дальше →

+78

NeTRuS-Dev 29 мая в 09:12

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Средний

22 мин

15K

Блог компании AvitoTechBig Data*Data Engineering*DIY или Сделай самБазы данных*

Обзор

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы.

В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение.

В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

+40

RenegadeMS 28 мая в 14:50

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Простой

3 мин

2.3K

SQL*Data Engineering*Open source*Базы данных*

Кейс

Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Мне показалось странным, что в 2025 году до сих пор нет удобной zero-setup SQL-песочницы для локальных данных.

Так родился PondPilot - open-source инструмент для анализа данных, работающий прямо в браузере, без серверов и настройки.

+15

GrishinAlex 27 мая в 08:17

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

Средний

13 мин

18K

Блог компании SelectelPostgreSQL*Базы данных*Облачные вычисления*Облачные сервисы*

Мнение

В облачном мире PostgreSQL возникает много вопросов. Какую конфигурацию выбрать для старта кластера? Сколько оперативной памяти и ядер CPU нужно под мою базу данных? Нужны ли под такой профиль нагрузки высокочастотные процессоры? Какое должно быть соотношение RAM к Storage в кластере? Хватает ли ресурсов и на системные службы, и на кэширование запросов? Не переплачиваю ли я?

Всем привет! Меня зовут Гришин Александр, я руководитель по развитию продуктов хранения данных в Selectel, отвечаю за объектное S3-хранилище и облачные базы данных. В этой статье я поделюсь своими практическими рекомендациями и ориентирами по планированию использования ресурсов кластера в PostgreSQL — в зависимости от типа и профиля нагрузки, размера данных и характера доступа к ним. Погнали!

Читать дальше →

+76

ITSumma 26 мая в 17:47

Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

Средний

17 мин

7.7K

Блог компании ITSummaСистемное администрирование*Серверное администрирование*Серверная оптимизация*Базы данных*

Туториал

Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений мы и проведем ниже.

СОДЕРЖАНИЕ

0. В каких случаях нужно задуматься о замене Prometheus
1. Обзор решений для долгосрочного хранения метрик
2. Сравнение решений: Thanos, Cortex, Mimir и VictoriaMetrics
3. Как выбрать подходящее решение

3.1. Что важнее: простота или масштаб?
3.2. Стоимость
3.3. Надёжность и высокая доступность
3.4. Насколько подходит по задачам?

4. Миграция с Prometheus на долгосрочное хранилище
5. Сохранение алертов и дашбордов
6. Как избежать потери данных при миграции

6.1. Параллельный запуск и проверка
6.2. Мониторинг очередей remote_write
6.3. Аккуратное отключение Prometheus
6.4. Резервное копирование
6.5. Тестирование

7. Лучшие практики эксплуатации долгосрочного хранилища метрик
8. Высокая доступность и избыточность
9. Мониторинг состояния хранилища метрик
10. Обработка долгосрочных запросов и типовые ошибки

10.1 Используйте recording rules для тяжёлых агрегаций
10.2 Не злоупотребляйте лейблами с высокой кардинальностью
10.3 Downsample старые точки данных
10.4 Осторожно с федерацией Prometheus

11. Обслуживание и обновления (Maintenance & Upgrades)
12. Итого. Как жить с продакшн-наблюдением

Читать дальше →

+22

andrey7657956 26 мая в 11:18

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Средний

15 мин

2.8K

Блог компании KTSPython*Тестирование IT-систем*Базы данных*PostgreSQL*

Туториал

Привет! Я Андрей Сташок, бэкенд-разработчик в KTS. В этой статье я расскажу о запуске параллельных тестов через pytest-xdist.

Почему это важно?

Объясню на нашем примере. При разработке продуктов мы постоянно выполняем юнит-тестирование. Раньше мы проверяли все последовательно, и с расширением тестовой базы время проведения испытаний заметно возрастало. Распараллеливание через pytest-xdist помогло нам сильно ускориться, и сегодня я хочу поделиться этим трюком с вами.

Я расскажу, как запускать параллельные тесты для реляционной БД PostgreSQL (с драйверами asyncpg и psycopg2) и key-value БД Redis. Для подключения к реляционной БД мы будем использовать SQLAlchemy, а для Redis — библиотеку redis. Кроме того, я рассмотрю, как автоматизировать выполнение миграций при каждом запуске тестов с использованием alembic.

+30

LeadsTeam 26 мая в 07:33

Как мы уменьшали размер базы данных

Средний

7 мин

5.9K

DevOps*MySQL*Базы данных*

Кейс

Больше года назад мы в LEADS.SU задумались над высокодоступностью нашей БД и начали искать различные варианты. Круг решений сужало то, что мы используем TokuDB, который уже не поддерживается. Вариантов было несколько, но точно было понятно что запуск кластера повлечет за собой полное клонирование файлов /var/lib/mysql, к тому моменту размер этой директории уже перевалил за пару сотен гигабайт и мы задумались над ревизией данных, что привело к долгоиграющему процессу по уменьшению размера БД.

По ходу уменьшения размера базы данных мы сталкивались с различными трудностями и препятствиями, в этой статье я ретроспективно опишу весь пройденный нами путь, полученные результаты и совершенные ошибки.

+10

TantorLabs 23 мая в 14:29

Работа с длинными строками в PostgreSQL

Средний

9 мин

5.5K

Блог компании Тантор ЛабсPostgreSQL*Базы данных*1С*

Обзор

Если в таблицах БД PostgreSQL есть поля большого размера, при выгрузке часть строк таких таблиц может не выгружаться с выдачей ошибки ERROR: out of memory. Столкнуться с подобной ситуацией можно, например, при выгрузке утилитой pg_dump таблиц, в которых хранятся XML-документы, или при выгрузке таблицы public.config системы «1C:Предприятие». В статье рассматриваются причины возникновения подобных ошибок и способы решения проблемы.

+18

Bright_Translate 23 мая в 13:01

Сервер, которому не суждено было жить

Простой

7 мин

11K

Блог компании RUVDS.comБазы данных*Настройка Linux*Серверное администрирование*Системное администрирование*

Кейс

Перевод

На днях я прочитал новость, которая оживила воспоминания о важном — и болезненном — эпизоде моей карьеры.

Это история о доверии, технологиях… и задачах, которые не всегда можно решить.

Где-то 16 лет назад со мной связался давний друг. Его беспокоила ситуация, связанная с одним общим знакомым.

Если в двух словах, то дело было в том, что один наш знакомый предприниматель — администратор и владелец нескольких компаний — внезапно скончался. Это был человек, который рулил всеми процессами, и его уход поставил жену с детьми в затруднительное положение.

Читать дальше →

+32

daria-gal 22 мая в 12:09

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

6 мин

2.2K

Блог компании MWS AIИскусственный интеллектМашинное обучение*Базы данных*

Способность открытых LLM шутить, причем по-доброму, могла бы расширить применение ИИ во многих сферах – образовании, терапии, обслуживании клиентов. Так что мы с коллегами из Лаборатории естественного языка НИУ ВШЭ задались этим вопросом и попытались разработать собственную методологию курирования (фильтрации и аннотирования) наборов данных для генерации доброго юмора на малых LM. По всем научным канонам мы ее описали и оценили в этом препринте. А здесь я постараюсь рассказать о ней чуть короче и менее научно.

dipweb 22 мая в 06:15

Правильный порядок колонок в B-tree индексах PostgreSQL или правило ESR

Средний

9 мин

7.2K

SQL*PostgreSQL*Базы данных*Серверная оптимизация*Data Engineering*

Из песочницы

Когда в проекте используется составной B-tree индекс, важно не просто "создать индекс", а сделать это правильно — иначе запросы могут не только не ускориться, но и начать работать медленнее. Возникает логичный вопрос: как выбрать порядок колонок, чтобы индекс действительно работал эффективно? Брутфорсом? По интуиции? По селективности?

В этой статье я расскажу, как подходить к построению составных индексов в PostgreSQL, на что реально влияет порядок колонок. Также разберём простое правило ESR, которое помогает упростить выбор и получать стабильный прирост производительности на всех стендах.

+21

LesnoyChelovek 21 мая в 13:08

Секционируй и властвуй: делимся нетайными знаниями о секционировании в Postgres Pro

Средний

13 мин

2.9K

Блог компании Postgres ProfessionalPostgreSQL*Базы данных*Высоконагруженные системы*

Туториал

В арсенале Postgres Pro есть мощное, но порой недооцененное оружие — декларативное секционирование. Оно только звучит сложно, а на деле позволяет элегантно «нарезать» гигантские таблицы, превращая их из неповоротливых монстров в управляемые и быстрые структуры. Делимся нетайными знаниями, которые помогут оптимизировать запросы и упростить жизнь.

+16

badcasedaily1 20 мая в 19:01

Проблема мягкого удаления (deleted_at) и как её решить

Простой

4 мин

11K

Блог компании OTUSPostgreSQL*Базы данных*

Обзор

Привет, Хабр!

В этой статье рассмотрим классическую проблему «мягкого удаления» на уровне схемы баз данных и её влияние на аналитику.

Почти в каждой системе встречается требование «не удалять данные окончательно».

Kmamish 19 мая в 13:27

Как заставить вашу базу данных летать, а не ползать. Часть 1 масштабирование и репликация

Средний

10 мин

13K

Блог компании SENSEMySQL*SQL*Базы данных*PostgreSQL*

Туториал

Всем привет! Меня зовут Илья Криволапов, тружусь системным аналитиком в SENSE на проекте одного из цветных банков РФ. В профессии я уже пятый год и, несмотря на фамилию, ломал прод всего лишь несколько незначительных раз (надеюсь).

На досуге я преподаю в университете дисциплину «Хранение и обработка больших объемов данных» и за все время у меня накопилось много полезной информации. Непростительно хранить такой клад у себя в столе, поэтому я подготовил для читателей Хабра ультимативный гайд по оптимизации или хорошему такому, грамотному проектированию баз данных с расчетом на масштабирование.

Всего в цикле будет 3 статьи. В первой поговорим о двух разных подходах масштабирования БД и о том, как лучше его делать и как лучше не делать (Никогда. Пожалуйста).

Кому будет полезно? Всем отвечающим за «здоровье» базы данных: DBA, архитекторам, DevOps-инженерам, аналитикам и разработчикам.

Согласны? Узнали? Тогда поехали!

+11

Kirill__Kr 19 мая в 13:07

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Средний

5 мин

4.8K

Блог компании Профи.руБазы данных*Data Engineering*Хранение данных*

Мнение

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий.

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

1 2 3 4

6 7 ...

86 87

Базы данных *

Почему граф в RAG работает лучше, чем вы думаете… но не так, как вам рассказали

Вся мощь открытого исходного кода в PostgreSQL

Соединение SortMergeJoin в Apache Spark

Как пройти… к третьей нормальной форме?

Как провести нагрузочное тестирование БД PostgreSQL и ничего не забыть

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

СОДЕРЖАНИЕ

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Как мы уменьшали размер базы данных

Работа с длинными строками в PostgreSQL

Ближайшие события

Сервер, которому не суждено было жить

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

Правильный порядок колонок в B-tree индексах PostgreSQL или правило ESR

Секционируй и властвуй: делимся нетайными знаниями о секционировании в Postgres Pro

Проблема мягкого удаления (deleted_at) и как её решить

Как заставить вашу базу данных летать, а не ползать. Часть 1 масштабирование и репликация

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Вклад авторов