PostgreSQL *

Свободная объектно-реляционная СУБД

СтатьиПостыНовостиАвторыКомпании

slonik_pg 2 июл в 12:27

Миграция Левиафана: как удалось перевести базу в 40 ТБ данных на Postgres Pro

Простой

6 мин

6.6K

Блог компании Postgres ProfessionalБазы данных*Серверное администрирование*IT-компанииPostgreSQL*

Кейс

Переезд крупных, высоконагруженных систем с одной СУБД на другую — всегда вызов, сравнимый с хирургической операцией на работающем сердце. Компания ОТР поделилась уникальным опытом миграции одной из таких систем с Oracle на отечественную Postgres Pro. Ирина Токарева и Сергей Кузнецов из ОТР рассказали о тернистом пути, противостоянии росту энтропии больших объёмов поступающих и изменяемых данных, достигнутых результатах.

Узнать тайны переезда 👉

+32

RustamKuramshin 30 июн в 17:10

Как не облажаться с типами данных в PostgreSQL

Средний

19 мин

8.1K

PostgreSQL*Базы данных*SQL*Программирование*

Туториал

Перевод

Недавно вышла отличная книга PostgreSQL Mistakes and How to Avoid Them от Jimmy Angelakos — системного архитектора, практика и давнего участника сообщества PostgreSQL. Книга подробно разбирает распространённые ошибки, с которыми сталкиваются разработчики и администраторы при работе с PostgreSQL, и предлагает практичные решения: от тонкостей конфигурации и миграции до антипаттернов в SQL и выбора типов данных.

Я перевёл одну из ключевых глав этой книги — про неправильное использование типов данных. В ней подробно объясняется, почему, например:

timestamp without time zone может ломать логику расчёта интервалов;

money — это не то, чем кажется (и почему он опасен);

char(n) и varchar(n) не дают ожидаемой экономии и даже вредны;

serial — это прошлый век, а identity — настоящее.

Глава будет полезна всем, кто работает с PostgreSQL в проде — особенно backend-разработчикам, независимо от языка и фреймворка. Если вы проектируете схемы БД, пишете SQL-запросы или просто хотите избежать неприятных грабель — стоит прочитать.

+35

GrishinAlex 26 июн в 08:07

Раздувание таблиц в PostgreSQL: работа с vacuum и pg_repack

Простой

8 мин

5.1K

Блог компании SelectelPostgreSQL*Базы данных*Облачные сервисы*Хранение данных*

Обзор

Когда вы в последний раз очищали БД от старых записей? А ведь раздувание таблиц и индексов в PostgreSQL из-за неактуальных данных — один из часто недооцениваемых источников «тихих» деградаций. Запросы потихоньку становятся медленнее, бэкапы — тяжелее, а место на диске расходуется неэффективно. В итоге любое лишнее уведомление от алерта или доля секунды задержки могут обернуться сбоем системы.

Привет, Хабр! На связи Александр Гришин. Я руководитель по развитию продуктов хранения данных Selectel: облачных баз данных и S3-хранилища. В этой статье предлагаю разобраться с одной из тех проблем, которые редко попадают в мониторинг, но легко становятся причиной инцидентов в проде. Посмотрим, чем pg_repack отличается от VACUUM FULL, какие особенности есть у каждого подхода и как использовать repack без дополнительных телодвижений. Статья будет полезна инженерам, поддерживающим PostgreSQL в продакшене, разработчикам облачных приложений и SaaS-сервисов и просто любопытным, кто стремится лучше понять, что происходит под капотом PostgreSQL в разных ситуациях. Погнали!

Читать дальше →

+45

badcasedaily1 24 июн в 20:31

Плохие JOIN’ы: приемы, которые (нечаянно) кладут прод

Простой

5 мин

23K

Блог компании OTUSPostgreSQL*Программирование*SQL*MySQL*

Обзор

Привет, Хабр!

В этой статье разбираем один из самых коварных способов убить базу — плохие JOIN'ы. Казалось бы, простое дело: связать пару таблиц — и вперёд. Но если в ON засунуть LOWER(email), забыть про индексы или перепутать LEFT JOIN с INNER — сервер мигом начнет дышать на ладан.

+37

GrishinAlex 24 июн в 08:01

Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector

Простой

9 мин

6.6K

Блог компании SelectelPostgreSQL*Машинное обучение*Системное администрирование*Хранение данных*

Обзор

Итак, ваш проект вырос и вам потребовалась новая функциональность, будь то рекомендательный движок, база знаний или автоматизированная первая линия техподдержки. Для всего этого можно использовать векторный и/или семантический поиск, а также интегрировать в проект LLM. Поздравляю — теперь вам нужно еще и хранить embedding-векторы, а также искать по ним ближайшие объекты. Решений два: внешняя векторная БД или интеграция всего этого богатства в существующий стек. Второй путь проще на старте, немного быстрее и обычно дешевле — разумеется, если вы уже используете PostgreSQL.

Привет, Хабр! Меня зовут Александр Гришин, я руководитель по развитию продуктов хранения данных в Selectel и отвечаю за развитие: облачных баз данных и S3-хранилища. В этой статье я расскажу о pgvector — расширении для PostgreSQL, которое позволяет добавить векторный поиск без внешних сервисов, пересборки архитектуры и большого количества работы. Материал пригодится продуктовым командам, архитекторам, бэкенд-разработчикам и инженерам данных.

Читать дальше →

+52

x4mmm 9 июн в 09:00

«Попал в Яндекс через опенсорс»: как коммиты в опенсорсные СУБД помогают развивать продукт и команду

8 мин

4.8K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source*Базы данных*PostgreSQL*

Ретроспектива

Привет, Хабр! На связи Андрей Бородин, в Yandex Cloud я руковожу направлением разработки СУБД с открытым исходным кодом — и я попал в Яндекс через опенсорс. Я уже немного рассказывал, что и зачем мы делаем в опенсорсных БД с точки зрения облачных сервисов, где мы развиваем PostgreSQL, Greenplum, Cloudberry, Valkey и другие решения.

Но из этих историй часто ускользает человеческая сторона: мы занимаемся опенсорсом не только для того, чтобы сделать решения с открытым кодом более облачными, не только потому, что это модно, но и потому, что это приносит пользу не только продукту, но и самим разработчикам‑контрибьюторам.

На масштабах Яндекса возникают нетривиальные задачи, которые интересно решать. А когда мы делимся решениями с сообществом, то можем получить от них новый взгляд на проблему, и продолжить совместную разработку новой фичи в удобном формате: с кем‑то на условиях независимого сотрудничества, а кого‑то можем позвать в команду (как это было и со мной).

В общем, если придерживаться опенсорс‑философии, может возникнуть ситуация win‑win. Сегодня с коллегами Леонидом Борчуком @leborchuk и Дмитрием Сарафанниковым расскажу пару историй про то, как это бывает с опенсорсными СУБД.

+44

igor_suhorukov 3 июн в 15:43

Семантический поиск по статьям Хабра в PostgreSQL + индексация текстов LLM в Ollama

Средний

21 мин

4.8K

PostgreSQL*Искусственный интеллектJava*Open source*

Покажу вам практическую реализацию семантического поиска на основе векторных представлений - эмбеддингов из текста. Здесь я создам систему, которая анализирует статьи с Хабра, извлекает из них темы и ключевые слова с помощью локально работающих больших языковых моделей LLM, и на основе этих данных создает векторные представления для эффективного поиска по смыслу, а не по запросу на вхождение определенного текста.

+30

GrishinAlex 29 мая в 12:00

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Средний

12 мин

16K

Блог компании SelectelPostgreSQL*Базы данных*Облачные сервисы*Системное администрирование*

Мнение

Когда вы разворачиваете веб-приложение, чаще всего у вас веб-сервер, бэкенд, база данных и авторизация оказываются на одном сервере. Первые пользователи, обычно тестировщики и менеджер, счастливы — все летает. Но потом приложение выходит в продакшн и начинается боль. Запросы тормозят и отвечают по пять секунд, CPU не загружен даже на треть, веб-сервер швыряет 504 Gateway Timeout и т. д. И вот вы сидите ночью и чините прод, потому что PostgreSQL — не просто «табличка с данными», а сложный инструмент с кэшем, индексами, буферами и планировщиком запросов.

Привет, Хабр! Меня зовут Александр Гришин, я руководитель по развитию продуктов хранения данных в Selectel и отвечаю за облачные баз данных и объектное S3 хранилище. В работе я часто сталкиваюсь с вопросами о производительности PostgreSQL, поэтому собрал практические советы для разработчиков, инженеров и архитекторов облачной инфраструктуры. В статье рассмотрим, как правильно использовать индексы, анализировать планы выполнения запросов и избегать типичных ошибок при проектировании схемы. Погнали!

Читать дальше →

+78

GrishinAlex 27 мая в 08:17

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

Средний

13 мин

17K

Блог компании SelectelPostgreSQL*Базы данных*Облачные вычисления*Облачные сервисы*

Мнение

В облачном мире PostgreSQL возникает много вопросов. Какую конфигурацию выбрать для старта кластера? Сколько оперативной памяти и ядер CPU нужно под мою базу данных? Нужны ли под такой профиль нагрузки высокочастотные процессоры? Какое должно быть соотношение RAM к Storage в кластере? Хватает ли ресурсов и на системные службы, и на кэширование запросов? Не переплачиваю ли я?

Всем привет! Меня зовут Гришин Александр, я руководитель по развитию продуктов хранения данных в Selectel, отвечаю за объектное S3-хранилище и облачные базы данных. В этой статье я поделюсь своими практическими рекомендациями и ориентирами по планированию использования ресурсов кластера в PostgreSQL — в зависимости от типа и профиля нагрузки, размера данных и характера доступа к ним. Погнали!

Читать дальше →

+76

andrey7657956 26 мая в 11:18

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Средний

15 мин

2.6K

Блог компании KTSPython*Тестирование IT-систем*Базы данных*PostgreSQL*

Туториал

Привет! Я Андрей Сташок, бэкенд-разработчик в KTS. В этой статье я расскажу о запуске параллельных тестов через pytest-xdist.

Почему это важно?

Объясню на нашем примере. При разработке продуктов мы постоянно выполняем юнит-тестирование. Раньше мы проверяли все последовательно, и с расширением тестовой базы время проведения испытаний заметно возрастало. Распараллеливание через pytest-xdist помогло нам сильно ускориться, и сегодня я хочу поделиться этим трюком с вами.

Я расскажу, как запускать параллельные тесты для реляционной БД PostgreSQL (с драйверами asyncpg и psycopg2) и key-value БД Redis. Для подключения к реляционной БД мы будем использовать SQLAlchemy, а для Redis — библиотеку redis. Кроме того, я рассмотрю, как автоматизировать выполнение миграций при каждом запуске тестов с использованием alembic.

+30

mizhka 14 мая в 13:00

Как мы под Новый Год загрузили в PostgreSQL петабайт данных и что из этого вышло

Средний

19 мин

15K

Блог компании Postgres ProfessionalPostgreSQL*Базы данных*

Эта история началась с шутки на офисной кухне 10 декабря, но, как водится, у каждой приличной шутки, она вдруг стала интересной для воплощения, а в конце переросла в не самую технически простую реализацию с хождением по многочисленным граблям.

А началось всё просто: пока все вокруг спорят как настраивать железо и тюнить операционные системы дабы выжать лишних TPS, мы решили проверить как отреагирует движок PostgreSQL если загрузить в него действительно большой объём данных. Например, давайте сделаем базу размером один петабайт и посмотрим как он это переживёт.

На дворе было 10 декабря, руководство поставило задачу сдать отчёт 20 января, до нового года оставалось меньше месяца, а в руках появился знакомый всем инженерам зуд.

+116

eivanov 13 мая в 08:42

Шардированный не значит распределённый: что важно знать, когда PostgreSQL становится мало

Средний

9 мин

13K

Блог компании YDBБазы данных*Высоконагруженные системы*Программирование*PostgreSQL*

Шардирование, двухфазный коммит и распределенные транзакции окружены определенными мифами и заблуждениями. Например, может быть достаточно неочевидно, что двухфазный коммит обеспечивает только атомарность транзакций, но не их изоляцию. Поэтому мы решили написать пост, который бы помог разобраться в этих сложных вещах и сделать правильный выбор, когда Postgres'а Вам станет мало и Вы столкнётесь с шардированием.

+91

kostja 13 мая в 06:54

Picodata: вторая жизнь in-memory баз данных

Сложный

17 мин

5.3K

Блог компании ArenadataБазы данных*Open source*Высоконагруженные системы*PostgreSQL*

Обзор

Привет, меня зовут Костя Осипов, и я занимаюсь разработкой СУБД. На Хабре есть несколько моих статей про MySQL, Tarantool и про всякое-разное. Кроме того, я веду Telegram-канал, где делюсь инсайтами в области управления базами данных. Сегодня я выступаю в роли основателя компании Picodata, создающей одноимённую открытую СУБД, и управляющего директора ПАО Arenadata по исследованиям и разработке. Ниже — вольный пересказ моего недавнего доклада на HighLoad. Он про то, что нас ждёт в мире СУБД завтра, и, в частности, про место резидентных СУБД в архитектурах будущего.

+46

net0pyr 6 мая в 13:01

Резервное копирование PostgreSQL по-взрослому

Средний

7 мин

20K

Блог компании RUVDS.comСистемное администрирование*Базы данных*PostgreSQL*

Туториал

Базы данных — замечательный инструмент, без которого сложно представить современное приложение. И как бы сильно я ни любил использовать БД, я просто ненавижу писать SQL-запросы. Поэтому однажды задался вопросом, кто мог бы делать это за меня, при этом несильно теряя в качестве. И, конечно же, на ум пришёл мой AI-друг. Тогда остаётся одна проблема, как скормить ему мою БД. Тут на помощь приходит резервное копирование! Выполнив все необходимые задачи, я решил углубиться в тему и поделиться с Хабром, какие вообще есть виды и, конечно, сравнить их между собой.

Читать дальше →

+43

LesnoyChelovek 29 апр в 15:21

Русский след в истории логотипа PostgreSQL

Простой

8 мин

9.4K

Блог компании Postgres ProfessionalPostgreSQL*IT-компанииНаучно-популярноеБазы данных*

Мнение

Каждый, кто работает с PostgreSQL, знает его символ — синего слона. Но задумывались ли вы, откуда он взялся? Его история — это не результат работы дорогого брендингового агентства, а захватывающее повествование о зарождении IT-сообщества, питерских энтузиастах, случайных файлах и том, как «маленький презент» стал мировым символом.

Узнать историю slonik.gif

+101

badcasedaily1 21 апр в 09:34

Почему COUNT(*) быстрее, чем COUNT(col) — и когда это не так

Простой

4 мин

23K

Блог компании OTUSSQL*PostgreSQL*Программирование*Базы данных*

Обзор

Привет, Хабр!

Сегодня поговорим про одну из тех тем, что вроде бы тривиальна, но до последней капли грязи тащит за собой внушительный пласт вопросов. Речь пойдёт про COUNT(*) и COUNT(col) в PostgreSQL.

+31

Lexx_Nimofff 15 апр в 12:13

Переход из Oracle в Postgres Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным

Простой

31 мин

6.7K

ИнтервьюБазы данных*PostgreSQL*Искусственный интеллект

Интервью

Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle, включая Марка Ривкина, который занял позицию руководителя отдела технического консалтинга. Вместе с командой он занялся адаптацией продуктов под требования крупных корпоративных заказчиков и доработкой функциональности Postgres Pro — в первую очередь для тех, кто планирует миграцию с проприетарных СУБД.

В интервью для Хабра Марк рассказал, с какими задачами столкнулись на старте, какие функции пришлось внедрять в первую очередь, как выстроена работа с разработкой и сообществом, и в чём сегодня Postgres Pro реально может заменить Oracle, а в чём — пока нет. Поговорили и про ИИ в администрировании, и про перспективы российских форков PostgreSQL, и даже о том, что бы он заложил в архитектуру, если бы проектировал СУБД с нуля. Приятного чтения!

+31

erogov 11 апр в 06:14

Сиквел и приквел: занимательная археология

20 мин

2.1K

Блог компании Postgres ProfessionalPostgreSQL*SQL*История IT

Предлагаю вашему вниманию немного дополненный доклад, который я делал на конференции PGConf.СПб 2024. В нем я рассказываю о том, как появились первые реляционные системы, как возник и всех победил язык SQL.

Погрузиться в историю

+29

LesnoyChelovek 2 апр в 15:37

Выпустили «PostgreSQL. Профессиональный SQL» для тех, кто хочет лучше понять «слона»

Простой

3 мин

24K

Блог компании Postgres ProfessionalПрофессиональная литература*Читальный залPostgreSQL*

Обзор

Postgres Professional продолжает публиковать книги о возможностях СУБД PostgreSQL. В этот раз представляем учебное пособие для тех, кто хочет стать маэстро в управлении базами данных.

Читать обзор

+64

segoon 2 апр в 07:00

Пишем свой pastebin, используя только userver

18 мин

4.4K

Блог компании ЯндексPostgreSQL*C++*Программирование*

Всем привет! Меня зовут Василий Куликов, я работаю ведущим разработчиком в Техплатформе Екома и Райдтеха Яндекса и последние пять лет разрабатываю фреймворк userver.

Это веб‑фреймворк, который позволяет создавать высоконагруженные отказоустойчивые сервисы на С++. Сегодня я расскажу, как написать на нём игрушечный, но рабочий сервис, который реализует функциональность pastebin.

+38

2 3 ...

22 23

PostgreSQL *

Миграция Левиафана: как удалось перевести базу в 40 ТБ данных на Postgres Pro

Новости

Как не облажаться с типами данных в PostgreSQL

Раздувание таблиц в PostgreSQL: работа с vacuum и pg_repack

Плохие JOIN’ы: приемы, которые (нечаянно) кладут прод

Векторный поиск внутри PostgreSQL: что умеет и где может пригодиться pgvector

«Попал в Яндекс через опенсорс»: как коммиты в опенсорсные СУБД помогают развивать продукт и команду

Семантический поиск по статьям Хабра в PostgreSQL + индексация текстов LLM в Ollama

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Все, что нужно PostgreSQL: быстрые диски, дорогой процессор и терабайты RAM

Pytest-xdist: как распараллелить тесты без конфликтов в базе

Как мы под Новый Год загрузили в PostgreSQL петабайт данных и что из этого вышло

Шардированный не значит распределённый: что важно знать, когда PostgreSQL становится мало

Picodata: вторая жизнь in-memory баз данных

Ближайшие события

Резервное копирование PostgreSQL по-взрослому

Русский след в истории логотипа PostgreSQL

Почему COUNT(*) быстрее, чем COUNT(col) — и когда это не так

Переход из Oracle в Postgres Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным

Сиквел и приквел: занимательная археология

Выпустили «PostgreSQL. Профессиональный SQL» для тех, кто хочет лучше понять «слона»

Пишем свой pastebin, используя только userver

Вклад авторов