Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

ITSumma 26 мая в 17:47

Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

Средний

17 мин

7.7K

Блог компании ITSummaСерверное администрирование*Серверная оптимизация*Базы данных*Системное администрирование*

Туториал

Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений мы и проведем ниже.

СОДЕРЖАНИЕ

0. В каких случаях нужно задуматься о замене Prometheus
1. Обзор решений для долгосрочного хранения метрик
2. Сравнение решений: Thanos, Cortex, Mimir и VictoriaMetrics
3. Как выбрать подходящее решение

3.1. Что важнее: простота или масштаб?
3.2. Стоимость
3.3. Надёжность и высокая доступность
3.4. Насколько подходит по задачам?

4. Миграция с Prometheus на долгосрочное хранилище
5. Сохранение алертов и дашбордов
6. Как избежать потери данных при миграции

6.1. Параллельный запуск и проверка
6.2. Мониторинг очередей remote_write
6.3. Аккуратное отключение Prometheus
6.4. Резервное копирование
6.5. Тестирование

7. Лучшие практики эксплуатации долгосрочного хранилища метрик
8. Высокая доступность и избыточность
9. Мониторинг состояния хранилища метрик
10. Обработка долгосрочных запросов и типовые ошибки

10.1 Используйте recording rules для тяжёлых агрегаций
10.2 Не злоупотребляйте лейблами с высокой кардинальностью
10.3 Downsample старые точки данных
10.4 Осторожно с федерацией Prometheus

11. Обслуживание и обновления (Maintenance & Upgrades)
12. Итого. Как жить с продакшн-наблюдением

Читать дальше →

+22

andrey7657956 26 мая в 11:18

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Средний

15 мин

2.7K

Блог компании KTSPython*Тестирование IT-систем*Базы данных*PostgreSQL*

Туториал

Привет! Я Андрей Сташок, бэкенд-разработчик в KTS. В этой статье я расскажу о запуске параллельных тестов через pytest-xdist.

Почему это важно?

Объясню на нашем примере. При разработке продуктов мы постоянно выполняем юнит-тестирование. Раньше мы проверяли все последовательно, и с расширением тестовой базы время проведения испытаний заметно возрастало. Распараллеливание через pytest-xdist помогло нам сильно ускориться, и сегодня я хочу поделиться этим трюком с вами.

Я расскажу, как запускать параллельные тесты для реляционной БД PostgreSQL (с драйверами asyncpg и psycopg2) и key-value БД Redis. Для подключения к реляционной БД мы будем использовать SQLAlchemy, а для Redis — библиотеку redis. Кроме того, я рассмотрю, как автоматизировать выполнение миграций при каждом запуске тестов с использованием alembic.

+30

LeadsTeam 26 мая в 07:33

Как мы уменьшали размер базы данных

Средний

7 мин

5.9K

DevOps*MySQL*Базы данных*

Кейс

Больше года назад мы в LEADS.SU задумались над высокодоступностью нашей БД и начали искать различные варианты. Круг решений сужало то, что мы используем TokuDB, который уже не поддерживается. Вариантов было несколько, но точно было понятно что запуск кластера повлечет за собой полное клонирование файлов /var/lib/mysql, к тому моменту размер этой директории уже перевалил за пару сотен гигабайт и мы задумались над ревизией данных, что привело к долгоиграющему процессу по уменьшению размера БД.

По ходу уменьшения размера базы данных мы сталкивались с различными трудностями и препятствиями, в этой статье я ретроспективно опишу весь пройденный нами путь, полученные результаты и совершенные ошибки.

+10

TantorLabs 23 мая в 14:29

Работа с длинными строками в PostgreSQL

Средний

9 мин

5.4K

Блог компании Тантор ЛабсPostgreSQL*Базы данных*1С*

Обзор

Если в таблицах БД PostgreSQL есть поля большого размера, при выгрузке часть строк таких таблиц может не выгружаться с выдачей ошибки ERROR: out of memory. Столкнуться с подобной ситуацией можно, например, при выгрузке утилитой pg_dump таблиц, в которых хранятся XML-документы, или при выгрузке таблицы public.config системы «1C:Предприятие». В статье рассматриваются причины возникновения подобных ошибок и способы решения проблемы.

+18

Bright_Translate 23 мая в 13:01

Сервер, которому не суждено было жить

Простой

7 мин

11K

Блог компании RUVDS.comБазы данных*Настройка Linux*Серверное администрирование*Системное администрирование*

Кейс

Перевод

На днях я прочитал новость, которая оживила воспоминания о важном — и болезненном — эпизоде моей карьеры.

Это история о доверии, технологиях… и задачах, которые не всегда можно решить.

Где-то 16 лет назад со мной связался давний друг. Его беспокоила ситуация, связанная с одним общим знакомым.

Если в двух словах, то дело было в том, что один наш знакомый предприниматель — администратор и владелец нескольких компаний — внезапно скончался. Это был человек, который рулил всеми процессами, и его уход поставил жену с детьми в затруднительное положение.

Читать дальше →

+32

daria-gal 22 мая в 12:09

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

6 мин

2.2K

Блог компании MWS AIИскусственный интеллектМашинное обучение*Базы данных*

Способность открытых LLM шутить, причем по-доброму, могла бы расширить применение ИИ во многих сферах – образовании, терапии, обслуживании клиентов. Так что мы с коллегами из Лаборатории естественного языка НИУ ВШЭ задались этим вопросом и попытались разработать собственную методологию курирования (фильтрации и аннотирования) наборов данных для генерации доброго юмора на малых LM. По всем научным канонам мы ее описали и оценили в этом препринте. А здесь я постараюсь рассказать о ней чуть короче и менее научно.

dipweb 22 мая в 06:15

Правильный порядок колонок в B-tree индексах PostgreSQL или правило ESR

Средний

9 мин

7.2K

SQL*PostgreSQL*Базы данных*Серверная оптимизация*Data Engineering*

Из песочницы

Когда в проекте используется составной B-tree индекс, важно не просто "создать индекс", а сделать это правильно — иначе запросы могут не только не ускориться, но и начать работать медленнее. Возникает логичный вопрос: как выбрать порядок колонок, чтобы индекс действительно работал эффективно? Брутфорсом? По интуиции? По селективности?

В этой статье я расскажу, как подходить к построению составных индексов в PostgreSQL, на что реально влияет порядок колонок. Также разберём простое правило ESR, которое помогает упростить выбор и получать стабильный прирост производительности на всех стендах.

+21

LesnoyChelovek 21 мая в 13:08

Секционируй и властвуй: делимся нетайными знаниями о секционировании в Postgres Pro

Средний

13 мин

2.8K

Блог компании Postgres ProfessionalPostgreSQL*Базы данных*Высоконагруженные системы*

Туториал

В арсенале Postgres Pro есть мощное, но порой недооцененное оружие — декларативное секционирование. Оно только звучит сложно, а на деле позволяет элегантно «нарезать» гигантские таблицы, превращая их из неповоротливых монстров в управляемые и быстрые структуры. Делимся нетайными знаниями, которые помогут оптимизировать запросы и упростить жизнь.

+16

badcasedaily1 20 мая в 19:01

Проблема мягкого удаления (deleted_at) и как её решить

Простой

4 мин

11K

Блог компании OTUSPostgreSQL*Базы данных*

Обзор

Привет, Хабр!

В этой статье рассмотрим классическую проблему «мягкого удаления» на уровне схемы баз данных и её влияние на аналитику.

Почти в каждой системе встречается требование «не удалять данные окончательно».

Kmamish 19 мая в 13:27

Как заставить вашу базу данных летать, а не ползать. Часть 1 масштабирование и репликация

Средний

10 мин

13K

Блог компании SENSEMySQL*SQL*Базы данных*PostgreSQL*

Туториал

Всем привет! Меня зовут Илья Криволапов, тружусь системным аналитиком в SENSE на проекте одного из цветных банков РФ. В профессии я уже пятый год и, несмотря на фамилию, ломал прод всего лишь несколько незначительных раз (надеюсь).

На досуге я преподаю в университете дисциплину «Хранение и обработка больших объемов данных» и за все время у меня накопилось много полезной информации. Непростительно хранить такой клад у себя в столе, поэтому я подготовил для читателей Хабра ультимативный гайд по оптимизации или хорошему такому, грамотному проектированию баз данных с расчетом на масштабирование.

Всего в цикле будет 3 статьи. В первой поговорим о двух разных подходах масштабирования БД и о том, как лучше его делать и как лучше не делать (Никогда. Пожалуйста).

Кому будет полезно? Всем отвечающим за «здоровье» базы данных: DBA, архитекторам, DevOps-инженерам, аналитикам и разработчикам.

Согласны? Узнали? Тогда поехали!

+11

Kirill__Kr 19 мая в 13:07

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Средний

5 мин

4.8K

Блог компании Профи.руБазы данных*Data Engineering*Хранение данных*

Мнение

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий.

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

alealandreev 19 мая в 10:15

Максимизация производительности ScyllaDB

Средний

14 мин

1.4K

Data Engineering*Хранение данных*Базы данных*NoSQL*

Туториал

Из песочницы

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

Sber 16 мая в 09:30

Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами

Сложный

9 мин

3.7K

Блог компании СберМашинное обучение*SQL*Базы данных*

Кейс

В современных компаниях корпоративные хранилища данных (Data Warehouse) играют критически важную роль, обеспечивая централизованное хранение и обработку больших объёмов информации. Данные поступают из разнообразных источников: операционных систем, CRM, ERP, IoT-устройств, веб-аналитики, мобильных приложений и других платформ, отражая все аспекты деятельности организации. На основе этой информации компании формируют разного рода отчётность, отслеживают ключевые показатели эффективности (KPI), оптимизируют бизнес-процессы, прогнозируют рыночные тенденции и принимают стратегические решения.

Эффективная работа с хранилищем невозможна без участия бизнес- и системных аналитиков, которые проектируют структуры данных, очищают и объединяют информацию, адаптируя решения под меняющиеся задачи. С ростом объёмов данных и требований к скорости анализа даже опытные команды сталкиваются с вызовами. Рутинные операции — проектирование схем, поиск таблиц, проверка качества данных — требуют не только технических навыков, но и глубокого понимания бизнес-контекста. Большую часть времени занимает написание и оптимизация SQL-запросов, что становится «узким местом» в условиях динамично меняющихся требований.

Ошибки в SQL-запросах или недостаточное знание структуры данных приводит к потерям времени и снижению точности аналитики. Для решения этих проблем на помощь приходят технологии на основе больших языковых моделей (LLM), таких как GigaChat, GPT, BERT или DeepSeek. Обученные на исторических данных и журналах запросов, они способны автоматизировать подбор таблиц, JOIN-условий и шаблонов SQL.

+10

badcasedaily1 15 мая в 16:10

Зачем нужен fillfactor в PostgreSQL

Простой

4 мин

4.5K

Блог компании OTUSБазы данных*PostgreSQL*

Обзор

Привет, Хабр!

Один параметр PostgreSQL может похоронить вашу производительность, если вы о нём забудете — это fillfactor. Почему однократная настройка числа приводит к неожиданным page split, bloat и мучительному откату запросов? Давайте разбираться.

+15

bi-denvic 15 мая в 08:09

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Средний

8 мин

2.9K

Хранение данных*Визуализация данных*Открытые данные*Базы данных*

FAQ

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы.

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

revareva96 14 мая в 13:36

Разбираем древо ArangoDB «по веточкам». Подробный гайд по графовой БД

Средний

11 мин

2.7K

Блог компании МойОфисSQL*Тестирование IT-систем*Информационная безопасность*Базы данных*

Роадмэп

Давайте честно: совместный доступ к документам — одна из главных «болей» для всех, кто хоть как-то связан с базами данных. Вроде бы оба пользователя могут работать с файлом, но есть один нюанс: например, количество предоставленных доступов может быть больше, чем их есть на самом деле. Или у документа и вовсе появляется несколько владельцев. Для всего этого требуется решение – и мы его нашли!

Меня зовут Владимир Ревякин, я старший инженер-программист компании «МойОфис», и вместе с QA-инженером Анной Рукавицыной мы подготовили этот материал, чтобы поделиться опытом реализации функции шаринга данных через графовую базу ArangoDB в рамках разработки платформы «Документы Онлайн». Если коротко — это продукт для совместной работы и хранения документов в рамках единой мультипродуктовой экосистемы.

В российских источниках не так много полезной информации по ArangoDB, и наша задача — исправить это недоразумение. Разберем главные нюансы работы с этой системой БД в разработке и тестировании, вспомним ее плюсы, минусы и потенциальные баги. Текст будет полезен как инженерам любых грейдов, которые связаны с работой над базами данных (сил вам...), так и классическим разработчикам продуктов.

Поехали!

+24

mizhka 14 мая в 13:00

Как мы под Новый Год загрузили в PostgreSQL петабайт данных и что из этого вышло

Средний

19 мин

15K

Блог компании Postgres ProfessionalPostgreSQL*Базы данных*

Эта история началась с шутки на офисной кухне 10 декабря, но, как водится, у каждой приличной шутки, она вдруг стала интересной для воплощения, а в конце переросла в не самую технически простую реализацию с хождением по многочисленным граблям.

А началось всё просто: пока все вокруг спорят как настраивать железо и тюнить операционные системы дабы выжать лишних TPS, мы решили проверить как отреагирует движок PostgreSQL если загрузить в него действительно большой объём данных. Например, давайте сделаем базу размером один петабайт и посмотрим как он это переживёт.

На дворе было 10 декабря, руководство поставило задачу сдать отчёт 20 января, до нового года оставалось меньше месяца, а в руках появился знакомый всем инженерам зуд.

+116

Project-2501 14 мая в 06:16

BookStack: мой опыт настройки и использования open-source базы знаний

Простой

7 мин

5.3K

DevOps*IT-инфраструктура*Open source*Базы данных*Открытые данные*

Из песочницы

Как я поднял базу знаний за 15 минут — без бюджета и опыта

Почему я выбрал именно BookStack

Мы в команде давно искали удобный инструмент для хранения технической документации и инструкций. Пробовали всё подряд — от Wiki.js до Confluence. Но то санкции, то интерфейс перегружен, то кастомизация страдает. В какой-то момент я наткнулся на BookStack — лёгкую, симпатичную open-source платформу на Laravel. Решил попробовать. В итоге — развернул, настроил, и теперь она у нас в проде.

eivanov 13 мая в 08:42

Шардированный не значит распределённый: что важно знать, когда PostgreSQL становится мало

Средний

9 мин

13K

Блог компании YDBБазы данных*Высоконагруженные системы*Программирование*PostgreSQL*

Шардирование, двухфазный коммит и распределенные транзакции окружены определенными мифами и заблуждениями. Например, может быть достаточно неочевидно, что двухфазный коммит обеспечивает только атомарность транзакций, но не их изоляцию. Поэтому мы решили написать пост, который бы помог разобраться в этих сложных вещах и сделать правильный выбор, когда Postgres'а Вам станет мало и Вы столкнётесь с шардированием.

+91

kostja 13 мая в 06:54

Picodata: вторая жизнь in-memory баз данных

Сложный

17 мин

5.4K

Блог компании ArenadataБазы данных*Open source*Высоконагруженные системы*PostgreSQL*

Обзор

Привет, меня зовут Костя Осипов, и я занимаюсь разработкой СУБД. На Хабре есть несколько моих статей про MySQL, Tarantool и про всякое-разное. Кроме того, я веду Telegram-канал, где делюсь инсайтами в области управления базами данных. Сегодня я выступаю в роли основателя компании Picodata, создающей одноимённую открытую СУБД, и управляющего директора ПАО Arenadata по исследованиям и разработке. Ниже — вольный пересказ моего недавнего доклада на HighLoad. Он про то, что нас ждёт в мире СУБД завтра, и, в частности, про место резидентных СУБД в архитектурах будущего.

+46

1 2 3 4

6 7 ...

86 87

Базы данных *

Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

СОДЕРЖАНИЕ

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Как мы уменьшали размер базы данных

Работа с длинными строками в PostgreSQL

Сервер, которому не суждено было жить

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

Правильный порядок колонок в B-tree индексах PostgreSQL или правило ESR

Секционируй и властвуй: делимся нетайными знаниями о секционировании в Postgres Pro

Проблема мягкого удаления (deleted_at) и как её решить

Как заставить вашу базу данных летать, а не ползать. Часть 1 масштабирование и репликация

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Максимизация производительности ScyllaDB

Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами

Ближайшие события

Зачем нужен fillfactor в PostgreSQL

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Разбираем древо ArangoDB «по веточкам». Подробный гайд по графовой БД

Как мы под Новый Год загрузили в PostgreSQL петабайт данных и что из этого вышло

BookStack: мой опыт настройки и использования open-source базы знаний

Шардированный не значит распределённый: что важно знать, когда PostgreSQL становится мало

Picodata: вторая жизнь in-memory баз данных

Вклад авторов