PostgreSQL *

Свободная объектно-реляционная СУБД

CPro 31 мая 2017 в 04:50

Postgres и Пустота

2 мин

14K

PostgreSQL*Ненормальное программирование*

Только что натолкнулся на возможность Postgresql, показавшуюся мне забавной. Для кого "баян" — респект вам, я несколько лет работаю с Postgres и до сих пор не натыкался на такую штуку.

select; без указания полей, таблицы и условий возвращает одну строку. Но у этой строки нет полей:

=> select;
--
(1 row)

Для сравнения:

=> select null;
 ?column? 
----------

(1 row)
=> select null where 0=1;
 ?column? 
----------
(0 rows)

А сможем ли мы создать таблицу из такого "пустого" запроса? Таблицу без полей.

Читать дальше →

+33

erogov 29 мая 2017 в 06:48

Индексы в PostgreSQL — 3

9 мин

87K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

В первой статье мы рассмотрели механизм индексирования PostgreSQL, во второй — интерфейс методов доступа, и теперь готовы к разговору о конкретных типах индексов. Начнем с хеш-индекса.

Hash

Устройство

Общая теория

Многие современные языки программирования включают хеш-таблицы в качестве базового типа данных. Внешне это выглядит, как обычный массив, но в качестве индекса используется не целое число, а любой тип данных (например, строка). Хеш-индекс в PostgreSQL устроен похожим образом. Как это работает?

Как правило, типы данных имеют очень большие диапазоны допустимых значений: сколько различных строк можно теоретически представить в столбце типа text? В то же время, сколько разных значений реально хранится в текстовом столбце какой-нибудь таблицы? Обычно не так много.

Идея хеширования состоит в том, чтобы значению любого типа данных сопоставить некоторое небольшое число (от 0 до N−1, всего N значений). Такое сопоставление называют хеш-функцией. Полученное число можно использовать как индекс обычного массива, куда и складывать ссылки на строки таблицы (TID). Элементы такого массива называют корзинами хеш-таблицы — в одной корзине могут лежать несколько TID-ов, если одно и то же проиндексированное значение встречается в разных строках.

Хеш-функция тем лучше, чем равномернее она распределяет исходные значения по корзинам. Но даже хорошая функция будет иногда давать одинаковый результат для разных входных значений — это называется коллизией. Так что в одной корзине могут оказаться TID-ы, соответствующие разным ключам, и поэтому полученные из индекса TID-ы необходимо перепроверять.

Читать дальше →

+33

olegbunin 25 мая 2017 в 08:32

10 способов достижения HighLoad'а и BigData на ровном месте

24 мин

35K

Блог компании Конференции Олега Бунина (Онтико)PostgreSQL*Анализ и проектирование систем*Высоконагруженные системы*Веб-разработка*

Илья Космодемьянский ( hydrobiont )

Есть типичные ошибки работы с хранилищем, и эти ошибки, не то чтобы я их выдумываю специально, но поскольку мы много работаем с удаленной поддержкой баз данных, мы их просто коллекционируем. Зачастую одни и те же от клиентов. И составляем своеобразный рейтинг того, что наколлекционировали. Об этих вещах я и буду сегодня рассказывать.

+27

erogov 10 мая 2017 в 05:34

Индексы в PostgreSQL — 2

7 мин

67K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

Интерфейс

В первой части мы говорили о том, что метод доступа должен предоставлять информацию о себе. Посмотрим, как устроен этот интерфейс.

Свойства

Все свойства методов доступа представлены в таблице pg_am (am — access method). Из этой таблицы можно получить и сам список доступных методов:

postgres=# select amname from pg_am;

 amname

--------

 btree

 hash

 gist

 gin

 spgist

 brin

(6 rows)

Хотя к методам доступа можно с полным правом отнести и последовательное сканирование, исторически сложилось так, что оно отсутствует в этом списке.

В версиях PostgreSQL 9.5 и более старых каждое свойство было представлено отдельным полем таблицы pg_am. Начиная с версии 9.6 свойства опрашиваются специальными функциями и разделены на несколько уровней:

свойства метода доступа — pg_indexam_has_property,
свойства конкретного индекса — pg_index_has_property,
свойства отдельных столбцов индекса — pg_index_column_has_property.

Разделение на уровни метода доступа и индекса сделано с прицелом на будущее: в настоящее время все индексы, созданные на основе одного метода доступа, всегда будут иметь одинаковые свойства.

Читать дальше →

+29

dimskiy 20 апр 2017 в 13:14

Экстремальная миграция на PostgreSQL: без остановки, потерь и тестирования

7 мин

27K

Блог компании ЮMoneyOracle*PostgreSQL*Платежные системы*Разработка под e-commerce*

Буквально месяц назад в Яндекс.Деньгах завершился переезд сервиса профилей пользователей с Oracle на PostgreSQL. Так что теперь у нас есть опробованное решение по миграции больших объемов данных без потерь и остановки использующего их сервиса.

Под катом я расскажу подробнее о том, как все происходило, зачем мы выбрали для миграции SymmetricDS и почему без «ручных» усилий все равно не обошлось. Поделюсь также некоторыми наработками по вспомогательному коду для миграции.

Ну и вспомню про набитые шишки, конечно же

+40

rdruzyagin 20 апр 2017 в 11:59

Логическая репликация в PostgreSQL 10

9 мин

26K

Блог компании PG Day'17 RussiaPostgreSQL*SQL*Веб-разработка*

PG Day’17 продолжает радовать вас авторскими статьями. Сегодня, наш старый друг и бессменный автор провокационных статей о Web-разработке varanio расскажет о логической репликации.

Сначала я хотел назвать статью "Гарри Поттер и философский камень", потому что много лет при сравнении PostgreSQL с MySQL кто-нибудь всегда появлялся и замечал, что в Посгресе нет логической репликации (можно реплицировать только всю базу целиком, причем реплика read only), а в MySQL их целых два вида: statement based и row based.

И если statement based — это бомба замедленного действия с лазерным прицелом в ногу, то row based действительно очень не хватало в PG. Т.е. вопрос репликации — как философский камень у любителей баз.

Точнее, в посгресе всегда можно было использовать slony для того, чтобы, например, реплицировать только одну-две нужных таблицы. Но slony — это хитрое поделие на триггерах, которое работает по принципу: работает — не трогай. Т.е. например, нельзя просто взять и сделать ALTER TABLE ADD COLUMN, это надо делать через специальные механизмы. Если же всё-таки кто-то случайно это сделал, а потом, что еще хуже, через какое-то время в панике вернул как было, то быстро разрулить эту ситуацию может только чёрный маг 80lvl. Помимо slony, начиная с 9.4 стало возможно писать свои расширения для логической репликации через wal, вроде бы, пример такого расширения — pglogical.

Но это всё не то!

Когда я узнал, что в dev-ветку PostgreSQL 10 упал коммит, который позволяет из коробки, без экстеншенов и плагинов, логически реплицировать отдельные таблицы, я решил посмотреть, а как оно там работает.

Читать дальше →

+38

erogov 19 апр 2017 в 07:52

Индексы в PostgreSQL — 1

17 мин

483K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

Предисловие

В этой серии статей речь пойдет об индексах в PostgreSQL.

Любой вопрос можно рассматривать с разных точек зрения. Мы будем говорить о том, что должно интересовать прикладного разработчика, использующего СУБД: какие индексы существуют, почему в PostgreSQL их так много разных, и как их использовать для ускорения запросов. Пожалуй, тему можно было бы раскрыть и меньшим числом слов, но мы втайне надеемся на любознательного разработчика, которому также интересны и подробности внутреннего устройства, тем более, что понимание таких подробностей позволяет не только прислушиваться к чужому мнению, но и делать собственные выводы.

За скобками обсуждения останутся вопросы разработки новых типов индексов. Это требует знания языка Си и относится скорее к компетенции системного программиста, а не прикладного разработчика. По этой же причине мы практически не будем рассматривать программные интерфейсы, а остановимся только на том, что имеет значение для использования уже готовых к употреблению индексов.

В этой части мы поговорим про разделение сфер ответственности между общим механизмом индексирования, относящимся к ядру СУБД, и отдельными методами индексного доступа, которые в PostgreSQL можно добавлять как расширения. В следующей части мы рассмотрим интерфейс метода доступа и такие важные понятия, как классы и семейства операторов. После такого длинного, но необходимого введения мы подробно рассмотрим устройство и применение различных типов индексов: Hash, B-tree, GiST, SP-GiST, GIN и RUM, BRIN и Bloom.

Читать дальше →

+102

Olga_ol 12 апр 2017 в 10:42

Лекции Технотрека. Проектирование СУБД (осень 2016)

4 мин

31K

Блог компании VKNoSQL*PostgreSQL*SQL*Анализ и проектирование систем*

Продолжаем публикацию наших образовательных материалов. Этот курс посвящен изучению основ языка SQL с учетом особенностей объектно-реляционной базы данных PostgreSQL. Программа предусматривает комплексный подход к изучению стандартизованного языка SQL на платформе PostgreSQL, включая некоторые минимальные возможности администрирования пользователей, ролей, схем, базовых таблиц и других объектов базы данных. Мы рассмотрим основы работы с базой данных PostgreSQL и некоторые особенности SQL применительно к ней. Более подробно — под катом.

+37

moscas 28 мар 2017 в 14:06

Релиз DataGrip 2017.1

5 мин

18K

Блог компании JetBrainsSQL*PostgreSQL*MySQL*Microsoft SQL Server*

Привет! Обсуждение DataGrip началось уже в комментариях к анонсу новой IntelliJ IDEA, давайте продолжим здесь. Расскажу, что нового в DataGrip 2017.1.

Будет много текста и картинок. Вкратце, вот что мы добавили:

Читать дальше →

+27

NikolaySivko 23 мар 2017 в 13:09

Запись при чтении в postgresql: скандалы, интриги, расследования

3 мин

26K

Блог компании okmeter.ioСистемное программирование*Программирование*Высоконагруженные системы*PostgreSQL*

Я уже рассказывал про мониторинг запросов postgresql, в тот момент мне казалось, что я полностью разобрался, как postgresql работает с различными ресурсами сервера.

При постоянной работе со статистикой по запросам постгреса мы начали замечать некоторые аномалии. Я полез разбираться, заодно очередной раз восхитился понятностью исходного кода постгреса )

Под катом небольшой рассказ о неочевидном поведении postgresql.

Читать дальше →

+36

nvorobev 15 мар 2017 в 11:21

PG Metricus — сбор метрик из plpgsql кода или как три строчки кода упростили жизнь

4 мин

10K

Блог компании AvitoTechПрограммирование*Высоконагруженные системы*Визуализация данных*PostgreSQL*

Начнем с того, что все ваши объявления живут в базе PostgreSQL. До сих пор львиная часть бизнес-логики скрыта в хранимых процедурах, и не всегда их работу удобно контролировать.

Для нас хранимые процедуры удобны, в первую очередь тем, что не надо передавать гигабайты данных между базой и приложением. Удобно сделать несколько действий с разными таблицами в базе, а в приложение только отчитаться о том, что всё было выполнено успешно. Это действительно удобно, но в то же время это привносит и ряд проблем. Бизнес-логика частично прячется в базе, механизмы, которые используются для отладки и мониторинга на PHP/Go/Python/etc неприменимы на стороне СУБД. Конечно, есть свои замечательные средства, например, pg_stat_statements, но иногда они не могут в полной мере ответить на вопрос, какой именно кусок кода в нашей большой и сложной хранимке работает не так. Предложенное нами решение не претендует на звание «серебряной пули», но может помочь быстро определить среднее время выполнения кусков кода внутри хранимой процедуры, которая выполняется тысячи раз в секунду, и сделать это без создания лишней нагрузки. Интересно? Добро пожаловать!

Читать дальше →

+41

afiskon 10 мар 2017 в 13:20

Еще одна новая фича pg_filedump: восстанавливаем каталог PostgreSQL

2 мин

8.3K

Блог компании Postgres ProfessionalC*PostgreSQL*

В прошлой статье мы узнали, как при помощи утилиты pg_filedump можно восстановить данные, или, по крайней мере, какую-то их часть, из полностью убитой базы PostgreSQL. При этом предполагалось, что мы откуда-то знаем номера сегментов, соответствующих таблице. Если мы знаем часть содержимого таблицы, ее сегменты действительно не сложно найти, например, простым grep'ом. Однако в более общем случае это не так-то просто сделать. К тому же, предполагалось, что мы знаем точную схему таблиц, что тоже далеко не факт. Так вот, недавно мы с коллегами сделали новый патч для pg_filedump, позволяющий решить названные проблемы.

Читать дальше →

+27

olemskoi 7 мар 2017 в 07:41

Uber — причины перехода с Postgres на MySQL

19 мин

106K

Блог компании СлёрмSQL*PostgreSQL*Open source*MySQL*

Перевод

В конце июля 2016 года в корпоративном блоге Uber появилась поистине историческая статья о причинах перехода компании с PostgreSQL на MySQL. С тех пор в жарких обсуждениях этого материала было сломано немало копий, аргументы Uber были тщательно препарированы, компанию обвинили в предвзятости, технической неграмотности, неспособности эффективно взаимодействовать с сообществом и других смертных грехах, при этом по горячим следам в Postgres было внесено несколько изменений, призванных решить некоторые из описанных проблем. Список последствий на этом не заканчивается, и его можно продолжать еще очень долго.

Наверное, не будет преувеличением сказать, что за последние несколько лет это стало одним из самых громких и резонансных событий, связанных с СУБД PostgreSQL, которую мы, к слову сказать, очень любим и широко используем. Эта ситуация наверняка пошла на пользу не только упомянутым системам, но и движению Free and Open Source в целом. При этом, к сожалению, русского перевода статьи так и не появилось. Ввиду значимости события, а также подробного и интересного с технической точки зрения изложения материала, в котором в стиле «Postgres vs MySQL» идет сравнение физической структуры данных на диске, организации первичных и вторичных индексов, репликации, MVCC, обновлений и поддержки большого количества соединений, мы решили восполнить этот пробел и сделать перевод оригинальной статьи. Результат вы можете найти под катом.

Читать дальше →

+108

Блог компании Postgres Professional 22 февраля 2017

Конкурс статей по PostgreSQL на «Хабрахабр»

Разработчики приложений и информационных систем на основе открытой СУБД PostgreSQL приглашаются принять участие в конкурсе «Лучшая статья по PostgreSQL на «Хабрахабр», совместно организованном «Хабрахабр» и компанией Postgres Professional. Победители будут объявлены в ходе международной технической конференции PgConf.Russia 2017, которая состоится 15—17 марта 2017 года в Москве, конференц-холле Digital October и объединит более 500 российских и зарубежных профессионалов в области разработки программного обеспечения, архитекторов баз данных, специалистов по эксплуатации и администрированию СУБД.

+27

Oldtuna 14 фев 2017 в 10:40

Где живут ваши объявления?

8 мин

42K

Блог компании AvitoTechPHP*PostgreSQL*Высоконагруженные системы*Разработка мобильных приложений*

Мы открываем техно-блог компании Avito. Многие знают бренд, но не так много тех, кто знает, как сервис устроен с технической стороны. В своём блоге мы приоткроем завесу неизвестного и расскажем о технической кухне сервиса.

Начнем с небольшой истории о том, что проект представляет из себя сегодня, чем занимается команда инженеров, и что мы планируем делать в ближайшем будущем. Еще мы собрали в этом посте множество ссылок на уже опубликованные материалы, доклады и презентации нашей команды, которыми давно хотели поделиться. Хотите знать, где живут ваши объявления? Добро пожаловать под кат!

Читать дальше →

+102

115

Habr_Studio 13 фев 2017 в 21:46

История успеха «Яндекс.Почты» с PostgreSQL

13 мин

54K

Oracle*PostgreSQL*SQL*Анализ и проектирование систем*Высоконагруженные системы*

Владимир Бородин (на «Хабре» dev1ant), системный администратор группы эксплуатации систем хранения данных в «Яндекс.Почте», знакомит со сложностями миграции крупного проекта с Oracle Database на PostgreSQL. Это — расшифровка доклада с конференции HighLoad++ 2016.

Всем привет! Меня зовут Вова, сегодня я буду рассказывать про базы данных «Яндекс.Почты».

Сначала несколько фактов, которые будут иметь значение в будущем. «Яндекс.Почта» — сервис достаточно старый: он был запущен в 2000 году, и потому мы накопили много legacy. У нас — как это принято и модно говорить — вполне себе highload-сервис, больше 10 миллионов пользователей в сутки, какие-то сотни миллионов всего. В бэкенд нам прилетает более 200 тысяч запросов в секунду в пике. Мы складываем более 150 миллионов писем в сутки, прошедших проверки на спам и вирусы. Суммарный объём писем за все 16 лет — больше 20 петабайт.

О чем пойдет речь? О том, как мы перевезли метаданные из Oracle в PostgreSQL. Метаданных там не петабайты — их чуть больше трехсот терабайт. В базы влетает более 250 тысяч запросов в секунду. Надо иметь в виду, что это маленькие OLTP-запросы, по большей части чтение (80%).

Это — не первая наша попытка избавиться от Oracle. В начале нулевых была попытка переехать на MySQL, она провалилась. В 2007 или 2008 была попытка написать что-то своё, она тоже провалилась. В обоих случаях был провал не столько по технически причинам, сколько по организационным.

+109

119

afiskon 18 янв 2017 в 14:02

Пример восстановления таблиц PostgreSQL с помощью новой мега фичи pg_filedump

5 мин

21K

Блог компании Postgres ProfessionalPostgreSQL*C*

Позвольте я расскажу вам об одной классной фиче, которую мы с коллегами из Postgres Pro недавно запилили в утилите pg_filedump. Фича эта позволяет частично восстанавливать данные из базы, даже в случае, если база была сильно повреждена и инстанс PostgreSQL с такой базой уже не запустишь. Конечно, хочется верить, что потребность в таком функционале возникает крайне редко. Но на всякий случай нечто подобное хотелось бы иметь под рукой. Читайте дальше, и вы узнаете, как данная фича выглядит в действии.

Читать дальше →

+45

KaldaiDemon 18 янв 2017 в 09:29

Эй, запрос! Ты живой? Как легко обработать блокировки в PostgreSQL

8 мин

61K

PostgreSQL*

Из песочницы

Доброе время суток! Администрирование и сопровождение реляционных баз данных чаще всего является нетривиальной задачей. Иногда запросы, работавшие быстро, внезапно начинают «тормозить» по непонятным причинам, размер таблиц растет и в целом производительность базы данных снижается.

Часто причиной такого поведения являются возникающие в базе блокировки различных ресурсов, и соответственно — вырастающее время ожидания этих ресурсов. Например, сложности начинаются в ситуациях, когда два или более запроса в разных сеансах пытаются одновременно изменить одни и те же данные в таблицах или саму структуру таблицы.

Чтобы разобраться в сложившейся ситуации, администратору БД необходимо понять, какой процесс блокирует и какой процесс является блокируемым, а также иметь возможность отменить или «убить» блокирующий процесс и в конце проверить результат.

В этой статье я хочу коснуться темы блокировок в PostgreSQL и рассказать об инструментах для работы с ними. Но сначала попробуем разобраться в самой теме.

Читать дальше →

+29

zzeng 18 янв 2017 в 04:40

Z-order vs R-tree, продолжение

8 мин

8.8K

C*PostgreSQL*Алгоритмы*Геоинформационные сервисы*

В прошлый раз мы пришли к выводу, что для эффективной работы пространственного индекса на основе Z-order необходимо сделать 2 вещи:

эффективный алгоритм получения подинтервалов
низкоуровневую работу с B-деревом

Вот именно этим мы и займёмся под катом.

Читать дальше →

+26

tuffnatty 10 янв 2017 в 10:19

Уменьшение объема, занимаемого данными PostgreSQL на диске

2 мин

18K

PostgreSQL*

Из песочницы

Обычно при составлении структур данных и таблиц никто не заморачивается порядком столбцов. Собственно, какой в этом смысл? При необходимости можно поменять порядок столбцов в SELECT, так о чем беспокоиться? Так вот, беспокоиться есть о чем, так как порядок столбцов может ощутимо влиять на размер таблицы. Да-да, размер таблицы может зависеть от порядка столбцов, даже если данные одни и те же.

Читать дальше →

+35

1 2 ...

14 15

17 18 ...

22 23

PostgreSQL *

Postgres и Пустота

Индексы в PostgreSQL — 3

Hash

Устройство

Общая теория

10 способов достижения HighLoad'а и BigData на ровном месте

Илья Космодемьянский ( hydrobiont )

Индексы в PostgreSQL — 2

Интерфейс

Свойства

Экстремальная миграция на PostgreSQL: без остановки, потерь и тестирования

Логическая репликация в PostgreSQL 10

Индексы в PostgreSQL — 1

Предисловие

Лекции Технотрека. Проектирование СУБД (осень 2016)

Релиз DataGrip 2017.1

Запись при чтении в postgresql: скандалы, интриги, расследования

PG Metricus — сбор метрик из plpgsql кода или как три строчки кода упростили жизнь

Еще одна новая фича pg_filedump: восстанавливаем каталог PostgreSQL

Uber — причины перехода с Postgres на MySQL

Ближайшие события

Конкурс статей по PostgreSQL на «Хабрахабр»

Где живут ваши объявления?

История успеха «Яндекс.Почты» с PostgreSQL

Пример восстановления таблиц PostgreSQL с помощью новой мега фичи pg_filedump

Эй, запрос! Ты живой? Как легко обработать блокировки в PostgreSQL

Z-order vs R-tree, продолжение

Уменьшение объема, занимаемого данными PostgreSQL на диске

Вклад авторов