alekciy Oct 31 2022 at 23:22

PostgreSQL: пример использования диапазонного типа данных при расчете коэффициента возраст-стаж в ОСАГО

4 min

4.7K

Рунити corporate blogPostgreSQL*

Technotext 2022

+10

Comments 22

gnome2_terminal_is_best Nov 1 2022 at 03:00

Как по мне, это просто синтаксический сахар. Мне ближе вариант с тремя таблицами в MySQL.

alekciy Nov 1 2022 at 06:04

По сравнению с вариантом 3 таблиц не только. Тут есть контроль целостности, а так же богатый список операторов на пересечения, свободность и прочее. На КСВ может это не так очевидно. Система бронирования в отелях может быть более показательна, но я хотел делать слишком сложный пример.

gnome2_terminal_is_best Nov 4 2022 at 22:50

Ну ок, согласен. С постгресом, не особо работал. Мускуль, наше всё.

ptr128 Nov 4 2022 at 10:48

Вы заблуждаетесь. Если БД не поддерживает диапазоны, то она так же ничего не знает о том, могут ли они пересекаться. Поэтому в плане запроса будут сканироваться все начала диапазонов меньшие и равные искомому значению или все концы диапазона большие или равные искомому значения, в зависимости от их очередности в индексе. А в случае GIST БД по индексу сразу находит нужную запись.

gnome2_terminal_is_best Nov 4 2022 at 22:58

Ну в данном случае, я полагаюсь на формат работы как с MongoDB, когда многие действия, происходят на стороне самого приложения, а не в БД. Пока ещё не сталкивался с необходимостью, оперировать диапазонами.

Fafhrd Nov 1 2022 at 12:00

Последний вариант с постгресом всё-равно требует нормализации.
А так да, постгрес хорош.

alekciy Nov 1 2022 at 14:01

Нормализации с разнесением по 3 таблицам? С ходу в голову приходит только такой вариант.

Fafhrd Nov 1 2022 at 16:10

Да, ровно такой же, как и с мускулем, только без доп. колонок from/to. Что уже неплохо =)

ptr128 Nov 4 2022 at 11:22

Если использовать не два int4range, а box type - получится нормализация )

alekciy Nov 4 2022 at 20:08

А можно немного идею раскрыть? Какая схема БД при этом получается?

ptr128 Nov 5 2022 at 09:33

Вместо двух полей age и experience будет одно поле age_and_experience box

X координата возраст, а Y - стаж. И ищем прямоугольник, внутри которого требуемая координата, используя GIST индекс.

alekciy Nov 8 2022 at 13:31

Оччень интересный вариант. Т.е. у нас будет 2ое поле в котором прямоугольники не могут пересекаться и даже соприкасаться. Т.е. у нас все сведется к 2 полям в таблице: age_and_experience box и value number. Обязательно попробую и этот вариант. Спасибо за идею!

alekciy Dec 17 2022 at 20:44

В общем я сделал вариант и с box. К сожалению в настоящее время Хабр пока не дает отредактировать статью и добавить туда этот вариант. Но данная заметка есть в формате видео. Если интересно, оно публичное. Ссылка на схему D: https://www.youtube.com/watch?v=LOtEC68d1Aw&t=725s

ptr128 Dec 18 2022 at 13:16

Зря не упомянули в видео причину, почему я предложил вариант с box. Она в комментарии ниже:
"в целях обучения, промолчать о варианте с box я просто не смог. Все же
поддержка геометрических типов данных и их индексации - одна из сильных
сторон PostgreSQL"

alekciy Dec 18 2022 at 22:37

Ну я в секции ответов про это рассказал. Там да, были вопросы про производительность.

Fafhrd Nov 4 2022 at 21:36

Так-то да, но может выстрелить нечаяно =)

ptr128 Nov 5 2022 at 09:39

На практике, я бы тоже нормализовал в три таблицы, почему и поставил + Вашему комментарию. Но, в целях обучения, промолчать о варианте с box я просто не смог. Все же поддержка геометрических типов данных и их индексации - одна из сильных сторон PostgreSQL

GoodGod Nov 1 2022 at 15:02

Как видим, в этом случае получается 50 записей (их можно сократить до 20, предлагаю подумать и написать в комментариях как это сделать).

Думаю для возраста 16-21 и стажа 0,1,2 коэффициент одинаковый, и их можно объединить в 1 запись. И тогда получится 20 записей.

При варианте с 3 таблицами, похоже никто не мешает вставить повторяющиеся диапазоны и в таблицу возраста и в опыта. Контроля уникальности нет. Тогда этот вариант можно заменить 1 таблицей: id, age_from, age_to, experience_from, experience_to, coefficient.

Akina Nov 1 2022 at 18:15

Думаю для возраста 16-21 и стажа 0,1,2 коэффициент одинаковый, и их можно объединить в 1 запись. И тогда получится 20 записей.

Это решение очевидно, думаю, автор имел в виду именно его. Более того, если прибегнуть к экстремальному сжатию диапазонов, то количество записей можно уменьшить до 16.

Но вот правильность такого "сжатия" - крайне сомнительна. Если в следующем году большие дяди решат, что для какой-то ячейки исходной таблицы надо подвинуть коэффициент на сотку, то внесение корректировки потребует минимум двух действий вместо одного (в обоих вариантах реализации), с количеством корректируемых записей от 2 до 5 в зависимости от использованного сжатия.

К тому же при таком сжатии сложнее хранить историю, вернее, работать с прошлыми периодами...

alekciy Nov 2 2022 at 18:04

Предложенный вариант с 1 таблицей тоже не помешает вставить повторяющиеся диапазоны, т.к. на уровне РСУБД это будут int + уникальный индекс. Но он позволит создать диапазон 22-22 при существовании диапазона 16-24.

В этом и суть отдельного типа данных range. Кроме цифр (границ диапазона) PostgreSQL еще и знает, что это диапазоны и может контролировать консистентность данных из коробки. Плюс он дает над ними еще и арифметику (которая будет полезна при составлении расписаний).

ptr128 Nov 4 2022 at 10:53

Хочу добавить, что время индексации GIST заметно превышает время индексации BTREE. Поэтому, для таблиц с большими объемами вставок или модификаций ключевых значений, GIST может суммарно проиграть по производительности.

alekciy Dec 27 2022 at 19:28

Продолжение истории с 4 вариантом - box, читайте в этой заметке: Сохраняем диапазон в виде box типа