Все потоки

Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

x4mmm 10 ноя в 11:01

Как не получилось сделать PostgreSQL лучше (и почему это нормально)

6 мин

13K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructurePostgreSQL * Базы данных * Open source *

Недавно я получил статус Major Contributor в проекте PostgreSQL. Это довольно радостное для меня событие и интересное, поэтому коллеги попросили написать статью об этом. А чтобы я не сомневался — заботливо составили список достижений за меня. Получилось замечательно, но публиковать от своего имени статью вида «как я крут» я не хочу. Я совсем не против про это говорить, и из каждого утюга вещаю про разные технологии, сделанные моей командой или вот прям вообще мной. Но только в контексте «как использовать эти технологии», либо в узком кругу или личной беседе.

Я решил написать другую статью: что у меня не получилось. Писал довольно спешно, поэтому, возможно, местами будет понятно только специалистам. Не расстраивайтесь, если что‑то неясно и пришлось гуглить. А вот если всё понятно — возможно, стоит меньше смотреть в монитор и чаще трогать траву.

Инкрементальное улучшение любой популярной технологии зачастую имеет негативные последствия. И в большинстве случаев предлагаемых в PostgreSQL доработок — вред превышает пользу. Построить что‑то новое, ничего не сломав, бывает трудно и в чистом поле, а ядро PostgreSQL в этом смысле — лабиринт с граблями.

Читать далее

+123

Andrey_Biryukov 10 ноя в 10:09

Всё, что я знаю о хорошем системном дизайне

Средний

13 мин

2.8K

Блог компании OTUSАнализ и проектирование систем * Базы данных *

Перевод

Хороший системный дизайн редко выглядит эффектно. В нём нет модных паттернов, десятков сервисов и Kafka на каждый чих. Он скучен — и именно поэтому работает. В этой статье автор рассуждает о том, почему простота — не наивность, а зрелость инженерного мышления; как состояние становится главным врагом стабильности; и почему настоящая архитектура рождается не из гениальных трюков, а из понимания границ и закономерностей сложных систем.

Разобраться в сути

+10

IvanZaycev0717 9 ноя в 05:56

Адский эксперимент: личный сайт на нищих микросервисах

27 мин

38K

Микросервисы * Python * JavaScript * Базы данных * Проектирование API *

Микросервисы тут, микросервисы там… Из каждого утюга доносится дивный сказ про прекрасный мир микросервисов. А ведь это всего лишь один вид из десятка архитектурных стилей, который имеет свои достоинства и недостатки.

В этом эксперименте мы внедрим микросервисы в личный сайт, нарушив ключевые принципы DDD. Я создам антипаттерн «бедных сервисов» (Anemic Domain Model) и покажу, чем опасен прямой доступ к данным между микросервисами.

Эта статья о том, что за прекрасным внешним видом, большой функциональностью, высокопроизводительным исправным кодом может скрываться абсолютное зло.

Читать далее

+82

offiziellen 8 ноя в 00:00

Горизонтальное шардирование: проблемы, решения, практические рекомендации

Средний

10 мин

3.9K

Анализ и проектирование систем * Высоконагруженные системы * Программирование * Серверная оптимизация * Базы данных *

Рано или поздно один сервер перестает справляться. Вы можете купить ему больше памяти, больше CPU, более быстрые диски (вертикальное масштабирование), но в конце концов вы упретесь в потолок. Самый большой сервер конечен. Горизонтальное шардирование — это признание этого факта.

Это философия разделяй и властвуй, примененная к данным. Вместо одной гигантской таблицы users на одном сервере, вы создаете 10, 100 или 1000 маленьких таблиц users, разбросанных по разным серверам (шардам). Это дает почти безграничную масштабируемость на запись и чтение.

Читать далее

+8

Loxmatiymamont 7 ноя в 19:06

От слов к делу: как Postgres Pro строит будущее в Академгородке

Простой

7 мин

3.8K

Блог компании Postgres ProfessionalPostgreSQL * Базы данных * Системное программирование * SQL *

Мнение

Некоторые из IT-компаний говорят, что поддерживают open source. На деле это нередко означает использование чужого кода и PR-активность. Мы считаем, что настоящий вклад — это коммиты в ядро. И чтобы делать это системно, мы открыли инженерный центр не в столичном бизнес-парке, а в месте, где фундаментальная наука — часть культурного кода. Рассказываем, почему будущее системного программирования мы строим в новосибирском Академгородке.

Читать далее

+36

Fatik32 7 ноя в 12:15

Шардирование сервиса объявлений Авито Доставки. Часть II

Средний

14 мин

2.8K

Блог компании AvitoTechВысоконагруженные системы * PostgreSQL * Базы данных * Программирование *

Кейс

Привет, меня зовут Артем, и я работаю в Авито с 2016 года. Это вторая часть истории про шардирование сервиса объявлений Авито Доставки, где мы расскажем о реализации шардирования и полученном результате.

Читать далее

+28

EvgenyVilkov 7 ноя в 09:12

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Средний

8 мин

1.6K

Блог компании Data SapienceБазы данных * Data Engineering * Big Data * Высоконагруженные системы *

Мнение

Недавно на Хабре вышла статья с громким заголовком «Бенчмарк lakehouse‑движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех». В своей статье авторы из Кверифай Лабс выбрали методику TPC‑DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

Читать далее

+12

SergeiTerentev 6 ноя в 17:48

Пострелизная валидация данных как новый вид тестирования?

Простой

9 мин

767

Тестирование IT-систем * Базы данных *

Мнение

Что делать если шаткие предположения о логике работы легаси проектов используют как фундамент для новой логики?

Как обезопасить легаси проект от рисков, которые не может покрыть стандартное тестирование?

Как все это сделать быстро и дешево? И при чем тут, возможно, новый вид тестирования?

Читать далее

0

PavelTkachenk0 5 ноя в 19:52

Сравнительный анализ эффективности планировщиков СУБД при выполнении различных запросов

Средний

34 мин

4.4K

SQL * SQLite * PostgreSQL * MySQL * Базы данных *

Из песочницы

Когда мы пишем запрос, СУБД делает гораздо больше, чем просто ищет данные. Она оценивает десятки сценариев выполнения, сравнивает стоимость операций и выбирает оптимальный путь к результату. От этого выбора зависит, будет ли запрос выполняться секунду или минуту. Почему одни системы находят лучший план, а другие выстраивают менее эффективный алгоритм? Попробуем разобраться, как планировщики СУБД принимают решения и что определяет их эффективность.

Читать далее

+11

kremenkov 5 ноя в 07:01

Почтовый Шарпей: как мы приручили 700+ шардов PostgreSQL

24 мин

5.7K

Блог компании ЯндексБазы данных * Высоконагруженные системы * PostgreSQL * Oracle *

Всем привет! Меня зовут Алексей Кременьков, я старший разработчик в Яндекс Почте. В этой статье расскажу, как мы работаем с большим количеством шардов PostgreSQL: как создавали собственный сервис динамического шардирования Sharpei, как развивали инфраструктуру под него и как проходил переезд на облачное решение. В конце разберёмся, какие плюсы и минусы мы смогли найти в этом решении.

Читать далее

+43

gandjustas 5 ноя в 06:46

Система резервации заказов на Postgres, продолжение

Сложный

8 мин

1.4K

.NET * PostgreSQL * C# * Базы данных *

В комментариях к предыдущему посту "Система резервации на 600 заказов в секунду без буферизации и другой дичи" только ленивый не упомянул явные блокировки в Postgres, как способ борьбы с дедлоками.

Это не удивительно, так как select for update - очень популярный прием во всех СУБД, даже на Хабре есть статья на эту тему.

Что же окажется быстрее?

+2

RSevruk 31 окт в 11:20

Российские СУБД в 2025: кто займет нишу Oracle в enterprise-сегменте

13 мин

18K

Блог компании К2ТехБазы данных * СофтIT-компании

Обзор

Привет, Хабр! Я Роман Севрук, менеджер по развитию решений СУБД в К2Тех. Мы своего рода детективы на технологическом рынке — выслеживаем и разбираем каждое новое решение в сегменте российских баз данных.

В этой статье рассмотрим новую подборку баз данных с разными технологическими подходами, которые формируют ландшафт локальной экосистемы российских СУБД. Объясним:

Читать далее

+43

vityaman 30 окт в 08:14

Автодополнение кода на примере YQL в YDB CLI

6 мин

1.4K

Блог компании YDBБлог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура * Программирование * Базы данных *

Привет, Хабр! Меня зовут Виктор Смирнов. В Yandex Infrastructure я c недавнего времени занимаюсь фронтендом YQL: транслятором и инструментами разработки.

В этом посте я расскажу про новый модуль автодополнения запросов на YQL, а также продемонстрирую, как он преобразил консольный клиент YDB CLI.

Читать далее

+70

runity 29 окт в 08:20

Один Swagger вместо сотни страниц Confluence: как в Рунити навели порядок в API-документации

Простой

9 мин

4.4K

Блог компании РунитиПодготовка технической документации * Проектирование API * Базы данных * Управление разработкой *

Кейс

Привет, Хабр! На связи Маргарита Сорочинская, технический писатель отдела архитектуры в Рунити. Хочу рассказать, как мы в компании подошли к описанию API в Swagger — и почему решили перенести туда всё, что раньше жило в Confluence. А еще поделюсь с вами стартерпаком для описания API в Swagger, пошаговой инструкцией и всеми ссылками, чтобы для вас этот путь был уже более простым.

Читать далее

+2

antipov_dmitry 29 окт в 08:18

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

18 мин

12K

Базы данных * Искусственный интеллектМашинное обучение * Анализ и проектирование систем *

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.

Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

Читать далее

+25

TrickyArch 29 окт в 06:16

Когда база устала искать: архитектура OpenSearch для больших данных

Средний

7 мин

2.4K

DevOps * Анализ и проектирование систем * Базы данных * Высоконагруженные системы * Системное администрирование *

Из песочницы

БигДата всегда звучит красиво — пока не нужно по ним искать и за нее платить.

Когда данные перестают влезать в индекс, а поиск тормозит — дело не в БД, а в архитектуре.Рассказываю, как мы перестроили систему на связке PostGIS + OpenSearch и добились отклика в десятки миллисекунд.

Читать далее

+1

ph_piter 28 окт в 11:04

Книга: «Потоковые базы данных»

2 мин

6.8K

Блог компании Издательский дом «Питер»Профессиональная литература * Программирование * Базы данных * Data Engineering *

Привет, Хаброжители! В наши дни приложения реального времени стали нормой. Но для построения корректно работающей модели требуется, чтобы данные обрабатывались на лету и анализировались с низкой задержкой. Из этой практической книги инженеры, архитекторы и аналитики данных узнают, как использовать потоковые базы данных для создания решений, действующих в режиме реального времени.

Читать далее

+11

BPMSoft 27 окт в 09:46

Как порядок в CRM повышает эффективность клиентских процессов

Средний

6 мин

265

Блог компании BPMSoftCRM-системы * IT-инфраструктура * Базы данных * Визуализация данных *

Мнение

Recovery Mode

Привет, Хабр!

Меня зовут Сергей Соловьёв, я руководитель отдела методологии в компании BPMSoft. Мы являемся разработчиком одноименной CRM-системы на базе low-code платформы со встроенными ИИ-инструментами. По версии Фонда Сколково и аналитического центра TAdviser, а также консалтинговой компании «Технологии доверия» – лучшей на российском рынке в 2024 году. В этой статье я расскажу, как мы управляем данными в собственной CRM и как это повышает эффективность бизнес-процессов.

Как появляется хаос

Разные подразделения компании работают с разными данными. Бухгалтерии важны название юридического лица и банковские реквизиты, отделу продаж — история взаимодействия с ним и потенциал кросс-продаж. При этом информация в CRM не всегда вносится корректно, что затрудняет поиск и работу с карточками клиентов. В результате данные оказываются фрагментированными и разрозненными: одному контрагенту нередко могут соответствовать две разные карточки.

Дубли контрагентов приводят к организационным проблемам. Если в CRM заведены две карточки одного клиента, разные менеджеры могут вести с ним параллельные переговоры, даже не подозревая об этом.

Проблема становится критичной по мере роста бизнеса и увеличения числа ошибок, связанных с некорректным ведением данных. Когда такие ситуации приобретают массовый характер, компании осознают необходимость системного управления. Однако на ранних этапах этому, как правило, не придают значения — в фокусе остается выбор и использование решений для автоматизации продаж и маркетинга. Чтобы эти процессы автоматизации работали точно, как швейцарские часы, нужно уделить внимание порядку в данных, от которого напрямую зависит эффективность использования новых систем и решений.

Читать далее

0

offiziellen 25 окт в 00:00

Вертикальное шардирование базы данных: проблемы, решения, практические рекомендации

Средний

13 мин

4.3K

Анализ и проектирование систем * Высоконагруженные системы * Программирование * Серверная оптимизация * Базы данных *

База данных — это сердце системы. И в какой-то момент это сердце начинает давать сбои. Не от объема данных, а от их разнородности. Таблица users разрастается до 200 колонок. Одни нужны для логина каждую секунду, другие — для годового отчета раз в год. В итоге, чтобы прочитать два "горячих" поля, база тащит с диска целый блок с "холодными" данными. Это неэффективно.

Читать далее

+7

melanny20 24 окт в 15:10

Эвристика: OR в SQL — это дорого

Средний

6 мин

9.7K

Блог компании Postgres ProfessionalPostgreSQL * SQL * Серверное администрирование * Базы данных *

Туториал

Перевод

Один запрос выполняется 100 мс, другой — меньше 1 мс. Оба делают одно и то же, но второй написан на странном, почти алхимическом SQL. В чём подвох? Первый использует OR, а второй — хитрую комбинацию AND. Этот перевод — расследование того, почему условие OR так дорого обходится вашей базе данных, и практическое руководство по тому, как проектировать схемы, чтобы избежать этой ловушки производительности.

Читать далее

+23

2

3 4 ...