Как стать автором

PostgreSQL *

Свободная объектно-реляционная СУБД

СтатьиПостыНовостиАвторыКомпании

Kmamish 23 июн в 15:23

Как заставить вашу базу данных летать, а не ползать. Часть 2 – когда репликации недостаточно и пора использовать шардинг

Средний

8 мин

5.6K

Блог компании SENSEБазы данных*PostgreSQL*MySQL*SQL*

Туториал

Всем привет! На связи снова Илья Криволапов — системный аналитик в SENSE, где мы трудимся на проекте одного из цветных банков РФ. Работаю в профессии уже пятый год и, несмотря на мою фамилию, с продом у нас в целом тёплые отношения.

Помимо боевых задач, я преподаю курс «Хранение и обработка больших объемов данных» и за это время накопил немало практических кейсов и наблюдений. Всё это добро я решил не держать при себе и собрал самое полезное в виде ультимативного гайда по оптимизации и грамотному проектированию баз данных с расчетом на масштабирование, который сейчас публикую на Хабре.

Цикл состоит из 3 частей. В первой мы обсудили два базовых подхода к масштабированию БД: вертикальный и горизонтальный. Поговорили о плюсах, минусах и о том, как делать точно не стоит.

Во второй части – то есть сейчас – мы нырнём глубже в мир горизонтального масштабирования и разберем три первых способа шардирования: по диапазону, по хэшу и по географическим зонам. Я расскажу, как каждый из них работает, где пригодится и в каких случаях может дать сбой.

Материал по-прежнему будет полезен всем, кто заботится о «здоровье» базы данных: DBA, архитекторам, DevOps-инженерам, аналитикам и разработчикам.

Готовы продолжать? Тогда поехали!

Читать далее

+5

koloskovv 23 июн в 13:54

Как мигрировать большую 10+ Тб базу 1С из MS SQL в PostgreSQL и уложиться в трехчасовое окно

12 мин

12K

Блог компании SOFTPOINT1С*PostgreSQL*Microsoft SQL Server*Высоконагруженные системы*

Тема перехода на PostgreSQL весьма популярна, и почти на каждой конференции по PG обязательно есть парочка докладов на эту тему. Почему же эта тема до сих пор злободневна?

Когда мы начинали свой блог здесь на Хабре, наша первая статья была посвящена как раз задаче перевода больших баз данных MSSQL –> PostgreSQL. И первой причиной, из-за которой компании решаются на переход мы называли законодательство. А именно, необходимость для государственных и окологосударственных организаций, чьи информационные системы относятся к значимым объектам критической информационной инфраструктуры (ЗОКИИ) переводить свою работу на отечественное ПО. Прошло два года. И это всё еще основная причина.

Это не будет инструкция в стиле «делай раз», «делай два». Это будет про то, что большие базы в принципе очень тяжело и рискованно передвинуть (СУБД, платформа, окружение,…). И мы предлагаем собственный метод, как это сделать с гарантией отсутствия простоев бизнеса. Даже если что-то пойдет не так в «новой» системе, пользователи не должны страдать, а бизнес простаивать. Это главное!

Читать далее

+20

roman_spb 23 июн в 07:01

Как мы автоматизировали обновление, развёртывание и настройку Postgres-like СУБД для пользователей

Средний

13 мин

2K

Блог компании СберDevOps*PostgreSQL*Базы данных*

Ретроспектива

Привет, Хабр! Меня зовут Роман Аминов, я руковожу группой автоматизации бизнес-сценариев в команде СУБД Pangolin в СберТехе. Это специальная доработанная сборка PostgreSQL, целевая СУБД в Сбере и не только. СУБД — сложный продукт, обновление, настройка и другие рутинные действия, связанные с её сопровождением, сопряжены с риском потери данных. Чтобы облегчить жизнь пользователям (и вдобавок разгрузить нашу техподдержку) мы разработали инструмент для автоматизации кластеров СУБД, их настройки и конфигурирования, обновления версий компонентов в их составе и обслуживание. Решение уже прошло проверку на тысячах кластеров в Сбере и я готов поделиться тем, как всё это работает.

Уточню, что мы используем систему управления конфигурациями Ansible. Всё, что нужно для её работы — это возможность устанавливать SSH-соединения и Python на удалённых серверах.

Надеюсь, статья будет полезна или натолкнёт на свои мысли автоматизаторов и администраторов СУБД и вообще всех, кто связан с базами данных.

Читать далее

+15

LesnoyChelovek 18 июн в 13:36

Как мы внедрили векторный поиск в Postgres Pro

Простой

7 мин

3.8K

Блог компании Postgres ProfessionalPostgreSQL*Базы данных*Искусственный интеллектСерверное администрирование*

Обзор

В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.

Читать далее

+20

Alena_Les 15 июн в 08:11

Ошибки, которые можно избежать в SQL: грабли начинающего аналитика

Простой

5 мин

5.6K

PostgreSQL*SQL*

Из песочницы

Recovery Mode

Привет Хабр! Меня зовут Алёна, я middle-продуктовый аналитик. В свободное время я рассказываю о реальных задачах с работы и делюсь материалами для тех, кто хочет стать аналитиком.

Если ты только начинаешь писать SQL-запросы — вот твой анти-фейл лист: с примерами, пояснениями и короткими лайфхаками, как не получить ошибку из-за лишнего JOIN или пропущенного WHERE.

Читать далее

+3

slonik_pg 11 июн в 13:40

Как расширенные статистики помогли раскрыть неочевидную аномалию в VACUUM PostgreSQL

Средний

7 мин

4K

Блог компании Postgres ProfessionalPostgreSQL*Серверное администрирование*Базы данных*Высоконагруженные системы*

Туториал

Эксперт Postgres Professional Андрей Зубков «нырнул» в глубины VACUUM и выяснил, что детализированная статистика может выявить глубинные проблемы, которые критически влияют на производительность. Расскажем о том, что скрывалось в глубине PostgreSQL

Читать далее

+18

x4mmm 9 июн в 09:00

«Попал в Яндекс через опенсорс»: как коммиты в опенсорсные СУБД помогают развивать продукт и команду

8 мин

4.8K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source*Базы данных*PostgreSQL*

Ретроспектива

Привет, Хабр! На связи Андрей Бородин, в Yandex Cloud я руковожу направлением разработки СУБД с открытым исходным кодом — и я попал в Яндекс через опенсорс. Я уже немного рассказывал, что и зачем мы делаем в опенсорсных БД с точки зрения облачных сервисов, где мы развиваем PostgreSQL, Greenplum, Cloudberry, Valkey и другие решения.

Но из этих историй часто ускользает человеческая сторона: мы занимаемся опенсорсом не только для того, чтобы сделать решения с открытым кодом более облачными, не только потому, что это модно, но и потому, что это приносит пользу не только продукту, но и самим разработчикам‑контрибьюторам.

На масштабах Яндекса возникают нетривиальные задачи, которые интересно решать. А когда мы делимся решениями с сообществом, то можем получить от них новый взгляд на проблему, и продолжить совместную разработку новой фичи в удобном формате: с кем‑то на условиях независимого сотрудничества, а кого‑то можем позвать в команду (как это было и со мной).

В общем, если придерживаться опенсорс‑философии, может возникнуть ситуация win‑win. Сегодня с коллегами Леонидом Борчуком @leborchuk и Дмитрием Сарафанниковым расскажу пару историй про то, как это бывает с опенсорсными СУБД.

Читать далее

+44

TantorLabs 6 июн в 13:46

Внутристраничная очистка в индексах PostgreSQL

Простой

12 мин

2.4K

Блог компании Тантор ЛабсPostgreSQL*Базы данных*

Туториал

Внутристраничная очистка (HOT cleanup) — это оптимизация, благодаря которой старые версии строк могут эффективно удаляться из блоков таблиц. Освобождённое место используется под размещение новой версии строки. Освобождается только место, занимаемое версиями строк, вышедшими за горизонт базы данных (xmin horizon). В статье рассматривается алгоритм работы аналогичной оптимизации для индексов. Если горизонт удерживается, то ни внутристраничная очистка, ни вакуум не могут освободить место, и тогда новая версия строки вставляется в другой блок. Увидим на примере стандартного теста pgbench, как сильно может снижаться производительность при удержании горизонта базы данных (в случае когда есть сессия с долгим запросом или транзакцией) и разберемся в причинах снижения производительности.

Читать далее

+16

slonik_pg 4 июн в 11:59

Что такое PPEM и как он освободит DBA от рутинной работы?

Простой

7 мин

1.6K

Блог компании Postgres ProfessionalPostgreSQL*Серверное администрирование*Системное администрирование*Базы данных*

Обзор

Если вы, как DBA устали тратить время на изучение статистики производительности, анализ логов и настройку разрозненных инструментов мониторинга при администрировании большого количества баз данных, то у нас есть решение — PPEM (Postgres Pro Enterprise Manager). Он объединяет возможности визуализации метрик, управления экземплярами и резервным копированием, анализ производительности в единую графическую консоль, позволяя локализовать проблему и быстро принять меры. Расскажем, как мы решали «головные боли» DBA по мониторингу и аналитике БД.

Читать далее

+9

igor_suhorukov 3 июн в 15:43

Семантический поиск по статьям Хабра в PostgreSQL + индексация текстов LLM в Ollama

Средний

21 мин

4.8K

PostgreSQL*Искусственный интеллектJava*Open source*

Покажу вам практическую реализацию семантического поиска на основе векторных представлений - эмбеддингов из текста. Здесь я создам систему, которая анализирует статьи с Хабра, извлекает из них темы и ключевые слова с помощью локально работающих больших языковых моделей LLM, и на основе этих данных создает векторные представления для эффективного поиска по смыслу, а не по запросу на вхождение определенного текста.

Читать далее

+30

TantorLabs 3 июн в 13:49

Трассировка запросов в Postgres с расширением pg_trace

Средний

11 мин

3.1K

Блог компании Тантор ЛабсPostgreSQL*SQL*Базы данных*1С*

Туториал

В рамках статьи расскажем о расширении pg_trace, предназначенном для сбора трассировок запросов в PostgreSQL, соберем трассировку на реальном примере работы приложения, оценим влияние сбора трассировки на производительность и агрегируем данные трассировки.

Читать далее

+16

koloskovv 3 июн в 08:22

Записки оптимизатора 1С (ч.12). СрезПоследних в 1C: Предприятие на PostgreSQL. Почему же так долго?

Средний

11 мин

4.3K

Блог компании SOFTPOINTPostgreSQL*1С*Высоконагруженные системы*SQL*

Этой проблеме уже не менее 15 лет.

На входе: большая база на PostgreSQL. Вполне себе типовые отчеты с не менее типовыми запросами 1C, содержащие обращение к виртуальной таблице СрезПоследних какого-нибудь регистра сведений с большим количеством строк, выполняются неприлично длительное время. Вплоть до нескольких часов.

Причина – оптимизатор строит неверный план запроса. Причем тот же запрос на MS SQL выполняется быстро и оптимизатор не ошибается.

Сейчас будем разбираться в чем ошибается оптимизатор и какие пути решения тут возможны.

Читать далее

+10

MightyDok 3 июн в 06:00

Обрезание баз данных без боли — использование и реализация database subsets в Greenmask

Средний

6 мин

402

DevOps*Тестирование IT-систем*PostgreSQL*Go*Open source*

Обзор

Продолжаю цикл статей про использование Greenmask - инструмента, который написан на Go специально для безопасной работы с данными PostgreSQL: он помогает делать логические бэкапы, восстанавливать таблицы и при необходимости — анонимизировать чувствительную информацию.

В первой части описаны базовые сценарии использования данного инструмента, а в этой части опишу что такое database subsets и как использовать данный функционал для радикального снижения размера дампа базы данных.

Читать далее

+4

kubelet 3 июн в 05:03

Вся мощь открытого исходного кода в PostgreSQL

Средний

11 мин

4.1K

Блог компании ФлантDevOps*PostgreSQL*Open source*Базы данных*

Перевод

PostgreSQL — одна из самых популярных СУБД, и это во многом благодаря открытому исходному коду. В статье рассказывается о том, как открытость кода влияет на развитие PostgreSQL и создание сообщества вокруг неё.

Читать далее

+23

bolik_23 2 июн в 21:25

Агрегированная витрина для дэшборда

Средний

3 мин

1.2K

PostgreSQL*SQL*

Мнение

Кажется, это не особо сложная задача - построить витрину для дэшборда, однако, я хочу отметить одну важную особенность при построении агрегированной витрины.

Читать далее

+1

TantorLabs 30 мая в 11:55

Как провести нагрузочное тестирование БД PostgreSQL и ничего не забыть

Простой

14 мин

3.9K

Блог компании Тантор ЛабсPostgreSQL*Тестирование IT-систем*Базы данных*Высоконагруженные системы*

Туториал

При нагрузочном тестировании баз данных Tantor Postgres или других на базе PostgreSQL с использованием стандартного инструмента pgbench отсутствие фиксации деталей окружения (таких как конфигурация СУБД, характеристики сервера, версии ПО) часто приводит к нерепрезентативным результатам и необходимости повторных тестов. В статье рассматривается разработанный автором инструмент pg_perfbench, который призван решить эту проблему.

Читать далее

+6

GrishinAlex 29 мая в 12:00

Как оптимизировать PostgreSQL и не лишиться сна: разбор для разработчиков

Средний

12 мин

16K

Блог компании SelectelPostgreSQL*Базы данных*Облачные сервисы*Системное администрирование*

Мнение

Когда вы разворачиваете веб-приложение, чаще всего у вас веб-сервер, бэкенд, база данных и авторизация оказываются на одном сервере. Первые пользователи, обычно тестировщики и менеджер, счастливы — все летает. Но потом приложение выходит в продакшн и начинается боль. Запросы тормозят и отвечают по пять секунд, CPU не загружен даже на треть, веб-сервер швыряет 504 Gateway Timeout и т. д. И вот вы сидите ночью и чините прод, потому что PostgreSQL — не просто «табличка с данными», а сложный инструмент с кэшем, индексами, буферами и планировщиком запросов.

Привет, Хабр! Меня зовут Александр Гришин, я руководитель по развитию продуктов хранения данных в Selectel и отвечаю за облачные баз данных и объектное S3 хранилище. В работе я часто сталкиваюсь с вопросами о производительности PostgreSQL, поэтому собрал практические советы для разработчиков, инженеров и архитекторов облачной инфраструктуры. В статье рассмотрим, как правильно использовать индексы, анализировать планы выполнения запросов и избегать типичных ошибок при проектировании схемы. Погнали!

Читать дальше →

+78

virus3908 29 мая в 11:31

Моё автопротоколирование, создание полифункционального сервиса

Средний

5 мин

538

Кейс

Всем привет! В данной статье я поделюсь своим опытом написания сервиса. Я не являюсь опытным или профессиональным разработчиком, я пишу свой проект и мои решения могут быть не самыми оптимальными. Эта статья состоит в основном из моих решений при написании сервиса, что могут быть не идеальными. Мой путь не является правильным и потому - судите "строго". Так же порекомендую прочитать предыдущие мои статьи.)

Читать далее

0

Arenadata 29 мая в 10:13

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Простой

17 мин

973

Блог компании ArenadataBig Data*Data Engineering*PostgreSQL*DevOps*

Кейс

Привет, Хабр! Сегодня мы расскажем, как «Национальная Лотерея» — компания, обрабатывающая сотни миллионов транзакций ежегодно, полностью перестроила свою работу с данными. Изначально инфраструктура данных опиралась на Excel-отчёты, ручные выгрузки и разнородные базы — подход, типичный для старта аналитических процессов. Однако со временем такие методы стали сдерживать скорость и масштабируемость аналитики.

Читать кейс

+9

grSereger 28 мая в 21:24

Бесполезная статья. SimpleProtocol vs BinaryParameters

Средний

7 мин

1.3K

FAQ

Я думаю, что многие, кто занимается разработкой в стеке Go + PgBouncer + PostgreSQL, уже примерно поняли, о чём будет статья — о проблеме выполнения prepared statements и сравнении работы двух популярных драйверов для PostgreSQL: lib/pq и jackc/pgx.

Если интересно — добро пожаловать под кат.

Читать далее

+5

2

3 4 ...