azatyakupov22 авг 2022 в 08:46

Типы таблиц в PostgreSQL: clustered, foreign, partitioned и inherited tables

14 мин

39K

Блог компании QuadcodePostgreSQL * Data Engineering *

+19

Комментарии 12

Ivan22 22 авг 2022 в 12:45

Кластеризованная таблица в постгресе уже лет 10 наверное существует, можно уже наконец сделать ее полноценной, как в нормальных субд. Тогда можно было бы ее использовать не только для статичных справочников, но и для супер эффективного merge join по отсортированным ключам для огромных таблиц.

azatyakupov 22 авг 2022 в 14:49

спасибо за ваш комментарий! мне здесь нечего добавить и я с вами полностью согласен.

Portnov 23 авг 2022 в 04:38

Когда говорят "кластеризованная таблица" — имеют ввиду таблицу, данные в которой поддерживаются в определённом физическом порядке (сам способ хранения такой, что порядок нарушиться не может). Таких таблиц в постгресе нет и пока не предвидится. Называть то, что есть в постгресе "кластеризованной таблицей"... ну, это всё-таки слишком.

azatyakupov 23 авг 2022 в 06:51

Добрый день!

спасибо за ваш комментарий и уточнение!

я опираюсь на команду CLUSTER TABLE ... и называю получаемую структуру - кластеризованной таблицей. С вами полностью согласен, что надо быть поосторожнее с терминами.

erogov 22 авг 2022 в 18:51

Не писать ORDER BY, когда нужна сортировка — лютая дичь. Нельзя так делать, а тем более советовать делать.

azatyakupov 23 авг 2022 в 08:57

Добрый день, Егор!

Спасибо за ваш комментарий!

Здесь я имею ввиду , что если таблица четко статическая (справочник) и не происходит обновление данных в ней или происходит очень нечастое контролируемое обновление (применяя CLUSTER...), то почему бы не воспользоваться физическим размещением данных в страницах в том порядке в котором нам необходимо выдать результат.

Полностью с вами согласен, если таблица обновляема часто, то без ORDER BY не обойтись.

erogov 23 авг 2022 в 11:39

Дело в том, что без ORDER BY порядок не гарантируется, даже если версии строк физически расположены именно так, как надо.

В случае последовательного доступа — ключевые слова для гугления: synchronized scans.

В случае индексного доступа — легко можно наступить не на тот индекс (например, построенный в обратном порядке). Ну и кроме того, при индексном доступе ORDER BY не несет никаких дополнительных расходов.

Это же азы.

azatyakupov 23 авг 2022 в 14:27

да вы правы! спасибо за это уточнение! внесу корректировки в свои материалы

Позвольте здесь привести выдержку из документации относительно параметра synchronize_seqscans, отвечающий за синхронизацию обращений при последовательном сканировании больших таблиц.

В документации сказано "Когда он включён, сканирование может начаться в середине таблицы, чтобы синхронизироваться со сканированием, которое уже выполняется. По достижении конца таблицы сканирование заворачивается к началу и завершает обработку пропущенных строк. Это может привести к непредсказуемому изменению порядка строк, возвращаемых запросами, в которых отсутствует предложение ORDER BY. Когда этот параметр выключен (имеет значение off), реализуется поведение, принятое до версии 8.3, когда последовательное сканирование всегда начиналось с начала таблицы. Значение по умолчанию — on".

onets 22 авг 2022 в 20:03

ООП в SQL, абалдеть…

Kuch 22 авг 2022 в 20:57

Интересно, конечно, дойдет ли до множественного наследования, интерфейсов, статических полей и т.д.

Ivan22 22 авг 2022 в 23:22

этому всему уже не первый десяток лет, массового использования нет, и не похоже что будет

azatyakupov 23 авг 2022 в 06:56

добрый день!

да именно так, действительно этому подходу не первый десяток лет в PostgreSQL и лично для меня интересно продолжение этой истории. Не люблю сравнивать, но встретившись с функционалом в другой РСУБД с конструкторами / деструкторами / свойствами / членами класса и тд на промышленном проекте - действительно был впечатлен как это можно использовать.

Спасибо!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий