aymeshkov Nov 18 2009 at 00:23

Все что нужно знать о секционировании (Часть 1)

5 min

70K

PostgreSQL*

+29

Comments 43

UFO landed and left these words here

nblxa Nov 18 2009 at 08:25

s/парти/сек/

Joka Nov 18 2009 at 08:29

можно, наверное, применить термин разбиение

nblxa Nov 18 2009 at 08:34

Зачем, когда есть устоявшийся термин, использующийся в литературе.

aymeshkov Nov 18 2009 at 09:34

Вы про секционирование? В литературе встречаются оба подхода. Эх, с русским конечно тяжело), во второй части буду чаще partitioning употреблять.

Egiptyanin Nov 18 2009 at 11:29

Я пока до комментариев не дошел, все думал: причем тут патриции?

aymeshkov Nov 18 2009 at 11:50

Ок, заменил везде)

Joka Nov 18 2009 at 08:29

я не знаком с постгре, но разве не должна она уметь делать все автоматически без триггеров и тп? чтобы можно было задать условия как делить таблицу, а база уже сама разобралась что куда складывать и это все было прозрачно для запросов?

johnny_bee Nov 18 2009 at 08:59

ну это и так прозрачно: все пишется в мастер-таблицу.

проблема в том, что партицировать можно по разному: на основании любой хэш функции (операторов больше-меньше для сравнимых типов; или, например, юзеров делим на две часть — мальчиков направо, девочек налево), еще как угодно. так что как ни крути, придется писать свою хэш-функцию и делать под нее свой синтаксис в create table. а зачем, если все уже есть?

плюс еще, что не бд не знает, что пора делать новую партицию — может быть куча вариантов: по времени, по количеству данных.

nblxa Nov 18 2009 at 08:29

Получается, что именно секционирование как таковое в PostgreSQL отсутствует, но есть функционал для того, чтобы эмулировать его работу?

А можно, например, «вывести из строя» одну из секций таблицы, не повредив работе запросов над остальными секциями (как в оракле ALTER TABLESPACE… OFFLINE)?

johnny_bee Nov 18 2009 at 09:02

alter table… no inherits
alter table… inherits

aymeshkov Nov 18 2009 at 09:50

У вас по tablespace на partition?
Вообще вы можете спокойно дропнуть хоть половину всех секций, работе с остальными это не повредит.

И я бы не сказал, что это эмуляция секционирования. Это оно самое и есть, просто реализация отличается от Oracle, но Oracle и не является эталоном (что прискорбно).

UFO landed and left these words here

nblxa Nov 18 2009 at 09:13

Ага, только не ставить, а покупать. Я так прикинул на shop.oracle.com, при самом дешевом раскладе (25 лицензий Named User Plus на 1 год и без поддержки) выходит 5900 долларов США (я не уверен, включены ли налоги). При этом надо понимать, что нет особого смысла покупать лиценизии на 1 год.

А тут дешево и сердито. А, может, и не так уж сердито, почитаем продолжение.

UFO landed and left these words here

aymeshkov Nov 18 2009 at 09:41

Ой как дешево, а если покупать в РФ у официальных дилеров, то от 12к$.

nblxa Nov 18 2009 at 09:54

Это за 25x Named User Plus (NUP) Enterprise Edition 1 year + 25x NUP Partitioning без поддержки?
Хотя, я, конечно, понимаю, что это бредовый вариант, и нечто нормальное действительно может начинаться с 20К.

aymeshkov Nov 18 2009 at 10:01

Ой, сейчас пересчитал, Oracle EE, 25xNUP +25xNUP Partitioning:

ИТОГО 38066.56 $

Вот во всем Oracle хорош, но цена…

isolda Nov 18 2009 at 11:55

Ну… Зато если вы принимаете решение о покупке, то официальный дилер поделится лично с вами сладким секретом своей наценки ;)

aymeshkov Nov 18 2009 at 11:56

:)))

isolda Nov 18 2009 at 11:09

Маловато будет! Скорее всего ведь процессорные лицензии потребуются, а это 8500 на каждый сокет. Не считая, опять же, поддержки и самой СУБД.

Но по опыту — когда при использовании БД на Oracle встает вопрос секционирования, то речь идет о реально огромной БД, сотни Гб. А значит и железо серьезное, и система ценная. Приходится раскошеливаться.

RomkoGoofique Nov 18 2009 at 12:14

Недавно облажались на работе, предполагая что цена считается по процессорам. Оказалось по ядрам =( в итоге система оказалась в два раза дороже =\

isolda Nov 18 2009 at 12:37

Да, там нужно внимательно всё читать. Standard — по сокетам, Enterprise — по ядрам с таблицей коэфициентов, муть…

aymeshkov Nov 18 2009 at 09:40

Ну не скажите, административный ovehead добавляется и в oracle. Точно также нужно во время создавать/архивировать партиции. Разве что с триггером и CHECK constraints возиться не нужно. Вообще по сути в oracle каждая партиция неявно для пользователя является отдельной таблицей.

nblxa Nov 18 2009 at 09:52

Отдельным сегментом, но не таблицей. Все-таки, нельзя сделать alter секции и изменить список столбцов в ней, например. Или навесить ограничение целостности только на одну секцию.

aymeshkov Nov 18 2009 at 10:09

Поэтому и говорю — неявно для пользователя. Сама база работает с секцией как с отдельной таблицей, Кайт когда-то писал об этом.

Ну а чтобы не начать ненароком спора об этом, сформулирую так: секции имеют очень много общего с обычными таблицами:).

isolda Nov 18 2009 at 11:20

А уж какой overhead добавляется при разработке приложения! Нужно по всем запросам к секционированным таблицам 3-жды проверять планы, условия поиска, думать о том, разрешать ли Ораклу распараллеливать их, и т.д.

aymeshkov Nov 18 2009 at 11:30

ну что вы наговариваете:) будто планы запросов к обычным таблицам проверять не нужно, да и параллелятся они тоже на раз.

isolda Nov 18 2009 at 11:51

Я не наговариваю, я реалист :) Параллелится всё на раз, в каких-то ситуациях становится лучше в разы. В каких-то — хуже в разы, из-за большого оверхеда на создание параллельных потоков обработки и синхронизацию между ними.

Приходится где-то разрешать параллельную обработку, где-то запрещать, где-то переписывать запросы.

В общем, появляется много новой интересной работы :)

johnny_bee Nov 18 2009 at 09:05

есть замечание, что неплохо было-бы написать про управление партициями не через триггер, а через rule, и когда какой метод предпочтительней использовать

aymeshkov Nov 18 2009 at 09:37

Да я хотел, но очень уж много материала получается, так что это во второй части.

Kastrulya Nov 18 2009 at 11:04

краем глаза замечаю «вечер/день/утро» — секунду не могу понять, что за странный путь такой.
надо больше спать!

isolda Nov 18 2009 at 11:22

А умеет ли PostgreSQL распараллеливать выполнение запросов, затрагивающих несколько секций?

aymeshkov Nov 18 2009 at 11:33

Нет, не умеет. Вообще у postgresql есть один большой минус, он выполняет запрос в одном потоке, и совсем не умеет параллелить, так что каждый раз приходится изобретать велосипед. Ходит слух, что enterpriseDB параллелит выполнение запросов.

В защиту постгре скажу, что распараллеливание запросов в Oracle не всегда приносит тот результат, который от него ждешь.

isolda Nov 18 2009 at 11:53

Угу, я как раз выше об этом же вам и ответил :)

nblxa Nov 23 2009 at 07:18

Параллелизм вообще штука противоречивая. Как хорошо заметил Кайт, распараллеливание — это способ максимизировать использование ресурсов системы. Получается, что оно нужно далеко не везде, а может, и наоборот навредить. Хотя для административных задач оно подходит хорошо.

Возвращаясь к теме, мне кажется, что если в штатном порядке работы приложения возникает необходимость производить параллельные запросы к секциям таблиц, то, возможно, что-то не так в архитектуре БД, или же таблица секционирована как-то неоптимально. Мало приходит в голову случаев, когда это было бы необходимо.

aymeshkov Nov 23 2009 at 10:06

Да, не везде, но как опция совсем не повредит. Надо сказать, что в базах, заточенных под анализ данных, распараллеливание какого-нибудь SELECT FROM GROUP BY по секциям очень полезно.

UFO landed and left these words here

aymeshkov Nov 18 2009 at 13:05

Незачто:) Дождитесь только второй части, будет проще)

Kodeks Nov 18 2009 at 14:55

update1 — зря
update2 — нет правда никто документацию не читает?

aymeshkov Nov 18 2009 at 14:59

аа, вы сведете меня с ума:) но писать топик на английском не выход:)

Kodeks Nov 18 2009 at 16:22

забей

KKS Nov 18 2009 at 16:42

Спасибо за статью, жду вторую… Когда хотел сделать нормальное секционирование в одном из проектов, напугался описанных вами сложностей и написал скрипт, который каждый месяц создает новую таблицу, а старую переименовывает, добавляя номер месяца и года. Решение рабочее, правда приходится модифицировать запрос на выборку, учитывая желаемый пользователем диапазон дат.