PostgreSQL *

Свободная объектно-реляционная СУБД

СтатьиПостыНовостиАвторыКомпании

vasiliev_a_v 24 июл 2024 в 06:25

Как реализовать и оптимизировать UPSERT в Greenplum 6

Средний

6 мин

2.8K

Блог компании ArenadataВысоконагруженные системы * PostgreSQL * Распределённые системы *

Привет! Меня зовут Антон Васильев, я работаю инженером технической поддержки компании Arenadata и нередко сталкиваюсь с довольно каверзными задачами и багами. Одной из них была проблема оптимизации механизма UPSERT в Greenplum 6. В этой статье я хочу рассказать, как эта задача может быть решена.

+11

pabel0071 22 июл 2024 в 07:00

Как перенести 1,4 ТБ с MS SQL на PostgresSQL за 13 часов

Простой

7 мин

13K

Блог компании РСХБ.Цифра (Россельхозбанк)PostgreSQL * Microsoft SQL Server * C# *

Кейс

✏️ Технотекст 7

Привет, Хабр! Меня зовут Павел Кузьмин, я работаю ведущим разработчиком в РСХБ-Интех. Однажды в своей работе мы столкнулись с острой необходимостью перенести БД объемом 1,4 ТБ (более 1,5 млрд строк) с MS SQL на PostgresSQL не более чем за 20 часов. Неожиданно для нас, все имеющиеся готовые варианты не подходили, поэтому мы решили взять библиотеку Npgsql на C# и написать свой код. В итоге созданное решение справилось с поставленной задачей за 13 часов. Рассказываем, как мы это сделали, и делимся кодом. Возможно, он вам пригодится в работе.

+28

badcasedaily1 17 июл 2024 в 18:11

Создание простейшего back-end на Node.js с использованием PostgreSQL

Средний

5 мин

19K

Блог компании OTUSNode.JS * Программирование * PostgreSQL * JavaScript *

Сегодня мы продемонстрируем как создавать back-end приложения на Node.js c PostqreSQL. В качестве примера создадим простейший back-end на Node.js с использованием PostgreSQL.

Почему именно Node.js и PostgreSQL? Node.js имеет хорошую скорость и асинхронность, а PostgreSQL, в свою очередь, является мощной и надежной СУБД.

Вместе они создают идеальный тандем для создания качественных приложений.

+11

boomster 16 июл 2024 в 08:13

Как найти и удалить 2 Тб ненужных файлов, которые не видит СУБД? Дорабатываем pg_orphaned

Сложный

22 мин

4.7K

Блог компании СберOpen source * PostgreSQL * Базы данных *

✏️ Технотекст 7

PostgreSQL, как и все СУБД, основанные на его открытом коде, устроен так, что всю информацию хранит в большом количестве отдельных файлов. И они при разных обстоятельствах могут потеряться. Например, бывает так, что при заполнении таблицы или обработке транзакции происходит сбой. Процесс, породивший файл, прерывается, не удалив результаты своей работы. СУБД про этот файл ещё ничего не знает, поскольку транзакция, создавшая его, не успела закоммититься. Часть таких файлов удалится при перезапуске СУБД, а часть — нет. Так неиспользуемые файлы копятся и занимают всё больше места. Иногда их объём исчисляется терабайтами.

Меня зовут Роман Дягелев, я инженер в СберТехе, сопровождаю и разрабатываю СУБД Platform V Pangolin. Наш продукт основан на открытых решениях PostgreSQL и включает в себя собственные доработки в области безопасности, отказоустойчивости и удобства эксплуатации. Я расскажу о том, почему нам не хватило готового инструмента PostgreSQL для очистки файлового мусора и как я вместе с коллегами дорабатывал его. Надеюсь, наш опыт станет полезен тем, кто работает с инструментарием PostgreSQL и ищет решения для работы с ненужными файлами.

+17

Igor_Le 15 июл 2024 в 20:49

Postgresso #6 (67)

16 мин

3.2K

Блог компании Postgres ProfessionalPostgreSQL *

Случилось так, что этот выпуск никак не хотел укладываться в наши обычные разделы, скажем: Релизы/Конференции/Статьи ...

Что делать?

Волны расходятся с тех пор, как Роберт Хаас (Robert Haas, EDB) издал в интернете крик души. Волны отразились от берегов: от одного берега пошла волна pre-commitfest, от другого вот что:

Robert Haas: Mentoring Program for Code Contributors

Роберт Хаас теперь сам участвует в менторской программе поддержки (потенциальных и действующих) контрибьюторов. Он кинул клич, можно подавать заявки. Формула проекта такая: 9 менторов-коммитеров-добровольцев курируют 9 контрибьюторов. В будущем - возможно - будет вовлечено больше коммитеров, и - возможно - каждый возьмёт больше, чем одного курируемого (mentee).

Другую волну оседлал (и правильно сделал) Андрей Бородин (Yandex Cloud), которого поддержало руководство Postgres Professional. Об этом мы писали в прошлом выпуске, но в будущем времени: На Saint HighLoad++ 2024 запланирован воркшоп Postgres Pre-Commitfest Party. Это была инициатива Андрея Бородина (Yandex Cloud) как путь разрешения проблем с коммитфестами, которые мы относительно подробно описали в предыдущем выпуске [то есть уже в пред-предыдущем - примечание редакции]. Андрей предложил обсуждать грядущие патчи сначала вне инфраструктуры коммитфестов.

Теперь можно сказать, что затея удалась. По подсчётам службы маркетинга на первом в России (да и в мире, зачем скромничать) публичном ревью патчей в PostgreSQL 18, было 100+ слушателей. Здесь фотографии.

+17

splarv 14 июл 2024 в 10:00

Популярная задача на собеседовании: сотрудники с максимальной зарплатой в отделе

Средний

8 мин

92K

Высоконагруженные системы * PostgreSQL * SQL *

Обзор

Кто ходил на собеседования по устройству на работу, тот знает, спрашивают там всякое и странное. Нередко можно встретить задачу SQL по нахождению сотрудников с максимальной зарплатой в отделе. Причем ваш потенциальный начальник считает, что у этой задачи есть только одно «правильное решение», то, про которое он прочитал в Интернете. Так ли это?

Любопытно...

+94

198

splarv 13 июл 2024 в 16:44

Поиск по префиксу или тайные операторы PostgreSQL

Средний

10 мин

5.9K

Высоконагруженные системы * PostgreSQL *

Обзор

В статье описывают различные (все известные мне) способы поиска строки по префиксу (по началу строки), которые можно ускорить индексами. Привожу скрипты для тестирования быстродействия и анализирую результат тестов: какой метод и индекс даёт наибольшую эффективность.

Интересно, что там?

+20

IBS_habrablog 11 июл 2024 в 09:00

PostgreSQL — один за всех? Как работать с нетипичными данными в реляционной системе

Средний

11 мин

6.1K

Блог компании IBSPostgreSQL *

Смотрим, как вездесущий PostgreSQL справляется с нестандартными для реляционной системы управления базами данных (СУБД) ролями: хранением и поиском временных рядов, пар «ключ — значение», эмбеддингов для больших языковых моделей и многомерных кубов. Отвечаем на вопрос: действительно ли так нужно строить сложные архитектуры со множеством разнородных систем хранения данных — MongoDB, Redis, InfluxDB, Pinecone, ClickHouse, Apache Cassandra — или можно обойтись одним PostgreSQL?

Привет, Хабр! Меня зовут Александр Брейман, я доцент департамента программной инженерии факультета компьютерных наук НИУ ВШЭ и по совместительству эксперт Учебного центра IBS по управлению данными и архитектуре ПО. В прошлой статье я рассказывал о миграции с Oracle на PostgreSQL, а сегодня разберу, как последний работает с нетипичными видами данных.

+13

Kak666tus 9 июл 2024 в 09:01

Битый или небитый? Как обеспечить целостность данных в Postgres Pro

Простой

9 мин

6.1K

Блог компании Postgres ProfessionalРезервное копирование * Базы данных * PostgreSQL * Системное администрирование *

Следим за целостностью данных в PostgreSQL. Мысль о возможной катастрофе неприятна, поэтому люди часто не принимают серьезных предупредительных мер.

Администратор любой IT системы должен знать о всех возможных проблемах, которые могут возникнуть на вверенном ему оборудовании: аппаратные сбои системы хранения, сбои файловой системы, повреждения страниц в оперативной памяти, сбои в кэше хранилищ и так далее. Для серверов баз данных выявление и исправление таких ошибок особенно важно, так как информация в БД должна быть в согласованном состоянии и некорректность только части данных портит БД целиком. В этой статье мы расскажем с помощью каких инструментов можно защитить ваши данные в СУБД Postgres и обнаруживать ошибки до того, как они становятся реальными проблемами.

+17

yakvenalex 9 июл 2024 в 04:00

Создание собственного API на Python (FastAPI): структура проекта, SQLAlchemy PostgreSQL, миграции и первые модели таблиц

Средний

21 мин

36K

Python * PostgreSQL * SQL *

Туториал

Приветствую всех, друзья! Наша последняя статья по созданию собственного API на FastAPI вызвала огромный интерес, и за это я искренне благодарен.

Ранее мы рассматривали базовые аспекты работы с FastAPI: различные типы запросов, их валидацию и обработку, а также ответы на эти запросы. Однако, это лишь верхушка айсберга.

Уже на данном этапе код становится громоздким и сложным для понимания. К тому же, хранение данных в JSON‑файлах — это далеко не самый профессиональный подход. «Нормальные ребята» используют SQLAlchemy, причем асинхронно.

Сегодня мы займемся интеграцией асинхронной SQLAlchemy в наше FastAPI‑приложение. Для упрощения навигации и понимания кода я предложу структуру проекта, которую сам использую в каждом FastAPI‑приложении.

Отдельное внимание уделим миграциям с Alembic: что это такое и зачем они нужны. Конкретные функции для взаимодействия с базой данных мы будем рассматривать в следующей статье. Сегодня же займемся подключением, миграциями, описанием моделей таблиц и их созданием.

+11

eivanov 1 июл 2024 в 08:43

Стоит ли бояться serializable-транзакций больше, чем труднонаходимых багов?

Средний

9 мин

6.1K

Блог компании YDBMySQL * Oracle * PostgreSQL * Базы данных *

В базах данных транзакции обладают свойствами ACID, где «I» означает изоляцию транзакций при одновременном (concurrent) выполнении.

Наличие (serializable) изоляции гарантирует, что результат транзакций, выполненных параллельно, будет таким же, как если бы они были выполнены в некотором последовательном порядке.

Сериализация выполнения транзакций не бесплатна с точки зрения производительности.

Многие СУБД поддерживают более слабые уровни изоляции, оставляя за разработчиком выбор подходящего. В монолитных СУБД более слабый уровень изоляции часто используется по умолчанию. Так, в PostgreSQL и MySQL это «read committed». В распределённых СУБД чаще по умолчанию более строгие уровни: «repeatable read» в YugabyteDB и TiDB, «serializable» в CockroachDB и YDB.

Слабые уровни изоляции могут быть причиной очень труднонаходимых багов. Причём эти баги могут вызвать уязвимости в безопасности.

Из-за подобных багов уже были украдены миллионы долларов, в частности с биткоин-бирж. Мы расскажем о подобных случаях более детально в следующих разделах.

+16

snpgg 25 июн 2024 в 09:58

Эмуляция сбоев ФС. Ломаем PostgreSQL

Средний

8 мин

4.3K

Операционные системыPostgreSQL * Тестирование IT-систем *

Из песочницы

Привет, Хабр!

Задумывались ли вы при написании программы о том, что может произойти, если на диске закончится место или при чтении данных из сектора возникнет ошибка? Обрабатывается ли это?

+14

Stolb27 24 июн 2024 в 14:44

Что нового в Greenplum 7. Заключение

Средний

8 мин

Блог компании ArenadataРаспределённые системы * PostgreSQL * Open source * Высоконагруженные системы *

Обзор

Перед вами заключительная, третья часть обзора изменений в Greenplum 7. Если вы по каким-то причинам пропустили прошлые публикации, то их можно найти в нашем блоге здесь и здесь. А сегодня мы поговорим об изменениях в партиционировании таблиц и ресурсных группах, JIT-компиляции выражений и многом другом. Давайте начнём!

Назад в Будущее III

+16

Andr_Admin 21 июн 2024 в 09:06

Архивация сегментов WAL с помощью Pgbackrest

Средний

7 мин

2.8K

Блог компании ИТ-холдинг Т1Базы данных * PostgreSQL * Системное администрирование *

Кейс

Добрый день, меня зовут Андрей, я специалист по администрированию баз данных в компании «Сервионика». За 2,5 года под моим контролем побывало около 700 кластеров баз данных, из которых 80 % — High Avaiability, треть из них — это трёхнодовые полноценные кластеры, где есть мастер, синхронная и асинхронная реплики. Также были успешно проведены проекты по миграции с Oracle и MSSQL на PostgreSQL.

Резервное копирование — один из важнейших процессов администрирования баз данных. К сожалению, никто не застрахован от сбоев оборудования или логических ошибок. Однажды мы столкнулись с ошибкой резервного копирования PostgreSQL, которая возникает у многих пользователей Pgbackrest. В сети нет единого описания её исправления. Расскажу о том, к какому решению мы пришли, и как в компании реализовано резервное копирование PostgreSQL.

+17

DTatarinov 18 июн 2024 в 09:17

Трудности перевода. Мигрируем учетные системы после переезда на отечественную СУБД

Средний

10 мин

1.9K

Блог компании К2ТехOpen source * Программирование * ERP-системы * PostgreSQL *

Обзор

Привет! Меня зовут Дима Татаринов, я занимаюсь бэкенд-разработкой в К2Тех. Мы живем в эпоху «великого переселения» СУБД с SQL Server, IBM DB2 и Oracle на отечественную СУБД Postgres Professional или аналоги. Подобные проекты «паровозиком» цепляют за собой потребность в модернизации бизнес-приложений, которые на них работали. Ранее зарубежные производители накладывали сильный вендор-лок с помощью экосистемы своих инструментов: от специализированного языка написания бизнес-логики (PL/SQL для Oracle) до сервера приложений. Именно поэтому особенно злободневной становится старая шутка про Oracle - «Oracle doesn't have clients. It has hostages» (У Oracle нет клиентов. Есть только заложники).

Цена освобождения уже стала известна российским вендорам прикладного ПО, которые реализовали в своих продуктах миграцию на отечественные СУБД. Но что делать с тысячами так называемых «учетных систем», которые используют компании на момент принятия решения о миграции. Понятно, что затрат не избежать, но как сделать их предсказуемыми и не получить новый «вендор-лок» взамен старого?

С таким запросом к нам стали часто обращаться корпоративные заказчики, и мы решили посмотреть на предложения вендоров в этом сегменте.

+15

Alena0704 18 июн 2024 в 09:00

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Средний

15 мин

2.6K

Блог компании Postgres ProfessionalБазы данных * Программирование * PostgreSQL * Системное администрирование *

Кейс

Компания Postgres Professional занимается разработкой и поддержкой СУБД с 2015 года. Это серьёзный срок для компании в ИТ-сфере, и за это время мы видели много случаев, когда клиенты сталкивались с неоптимальным выполнением запросов. Обычно оптимизатор PostgreSQL неплохо справляется и строит хорошие планы, если количества джойнов в запросе не больше 10 и данные в таблицах распределены равномерно. Однако в даже на изначально тщательно продуманной базе данных, оптимизатор может сгенерировать настолько неоптимальный план, что его время выполнения может увеличиться в разы. В некоторых особо экстремальных случаях даже практически невозможно дождаться окончания выполнения запроса и понять при помощи EXPLAIN ANALYZE, что пошло не так. Усугубляющим фактором является то, что оптимизатор PostgreSQL никак не запоминает допущенные ошибки выполнения. Построив неоптимальный план один раз, он с большей долей вероятности будет делать это снова и снова до тех пор, пока что-то не изменится: статистика, настройки оптимизатора или какое-то внутреннее состояние СУБД.

Другая не менее важная тенденция в области баз данных — уход в облака, где у DBA остается незначительный набор инструментов для исправления проблемных ситуаций и диагностики причин.

На протяжении своего существования наша компания пытается отвечать на эти вызовы, для чего, например, были разработаны расширения AQO и sr_plan. Сообщество PostgreSQL также не стоит на месте: в ванильной версии появилась расширенная статистика и был введён ряд оптимизаций вроде инкрементальной сортировки и материализации промежуточных результатов выполнения запроса.

Однако все эти методы или имеют мало предсказуемый результат (AQO), или требуют глубокого понимания причин возникшей проблемы с ручной донастройкой СУБД. В своей новой разработке мы решили взглянуть на проблему исправления ошибок оптимизации с другой стороны. Основная идея в том, чтобы добавить возможность перепланирования на основе полезных сведений, которые можно получить из уже частично выполненного запроса. Помимо этого нужно сформулировать критерии для плохо спланированных запросов, для которых необходимо провести перепланирование.

+16

Stolb27 17 июн 2024 в 18:04

Что нового в Greenplum 7. Часть 2

Средний

10 мин

2.2K

Блог компании ArenadataВысоконагруженные системы * Open source * PostgreSQL * Распределённые системы *

Обзор

В прошлой части обзора изменений и нововведений Greenplum 7 мы рассмотрели миграцию движка Append Optimized таблиц на использование интерфейса табличных методов доступа, оптимизацию добавления столбцов в таблицы, а также изменения, связанные с поддержкой индексов.

Сегодня мы поговорим об ещё одном новом для Greenplum типе индексов и не только.

Назад в Будущее II...

+19

nvv 15 июн 2024 в 11:32

Статический анализ структуры базы данных (часть 3)

Средний

7 мин

3.3K

PostgreSQL * Анализ и проектирование систем * SQL *

Туториал

Продолжим разбор проверок структуры базы данных, на примере PostgeSQL. Данная статья будет посвящена проверкам связанным индексами. Статический анализ не учитывает размер индексов и частоту их использования, которые используются в эвристиках других анализаторов.

В первой статье цикла рассмотрена проверка корректности выбора индекса для полей, содержащих массив значений.

+11

Igor_Le 12 июн 2024 в 17:39

Postgresso #5 (66)

19 мин

4.2K

Блог компании Postgres ProfessionalPostgreSQL *

PostgreSQL: PostgreSQL 17 Beta 1 Released!

Вышла бета с 188 новшествами. Напомним, что Брюс Момджан недавно подчёркивал важность этого релиза из-за его некоторого уклона в оптимизацию, мол, большое число улучшений в оптимизации, это приятный сюрприз для меня.

В пояснительной записке к релизу тоже начинают с оптимизации. Первым делом рассказывают об изменениях в Vacuum. Там новая внутренняя структура, благодаря которой удалось сэкономить 20% памяти, а также сократить время самой очистки. Последний пункт касается редкой темы: в PostgreSQL 17 улучшена поддержка SIMD-инструкций.

Интересный, важный пункт - управление переключением при логической репликации (failover control for logical replication), важное для отказоустойчивых конфигураций.

В SQL/JSON появилась важнейшая вещь - JSON TABLE, это новый уровень работы с этим форматом. Также появились новые конструкторы и другие функции.

+30

erogov 11 июн 2024 в 09:19

«IT-Планета 2024»: задачи третьего этапа по PostgreSQL

9 мин

3.3K

Блог компании Postgres ProfessionalНенормальное программирование * PostgreSQL * SQL *

Или, точнее, задача, поскольку в этом году мы попробовали другой формат: задача была всего одна, но большая. Требовалось написать SQL-запрос, играющий в крестики-нолики «пять в ряд».

Ну-ка, ну-ка

+15

1 2 ...

15 16

18 19 ...

66 67

PostgreSQL *

Как реализовать и оптимизировать UPSERT в Greenplum 6

Как перенести 1,4 ТБ с MS SQL на PostgresSQL за 13 часов

Создание простейшего back-end на Node.js с использованием PostgreSQL

Как найти и удалить 2 Тб ненужных файлов, которые не видит СУБД? Дорабатываем pg_orphaned

Postgresso #6 (67)

Популярная задача на собеседовании: сотрудники с максимальной зарплатой в отделе

Поиск по префиксу или тайные операторы PostgreSQL

PostgreSQL — один за всех? Как работать с нетипичными данными в реляционной системе

Битый или небитый? Как обеспечить целостность данных в Postgres Pro

Создание собственного API на Python (FastAPI): структура проекта, SQLAlchemy PostgreSQL, миграции и первые модели таблиц

Стоит ли бояться serializable-транзакций больше, чем труднонаходимых багов?

Эмуляция сбоев ФС. Ломаем PostgreSQL

Что нового в Greenplum 7. Заключение

Ближайшие события

Архивация сегментов WAL с помощью Pgbackrest

Трудности перевода. Мигрируем учетные системы после переезда на отечественную СУБД

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Что нового в Greenplum 7. Часть 2

Статический анализ структуры базы данных (часть 3)

Postgresso #5 (66)

«IT-Планета 2024»: задачи третьего этапа по PostgreSQL

Вклад авторов