youngest Aug 4 2009 at 07:08

Партиционирование таблиц в mySQL

4 min

199K

Website development *

+96

Comments 84

BaHbka Aug 4 2009 at 07:28

спасибо за статью. мне в новом проекте как раз пригодится Ваш материал

progit Aug 4 2009 at 07:36

Офигенная весчь!

P.S. Надо больше читать маны…

happybyte Aug 4 2009 at 08:41

Молодцы. До этого приходилось к подобным трюкам прибегать разбивая данные на таблицы ручками :) Хотя при использовании других движков типа SQLite все еще руками приходится разбивать.

Joka Aug 4 2009 at 07:38

большое спасибо, теперь оптимизировать будет легче.

Joka Aug 4 2009 at 07:39

я бы на вашем месте перенес бы в блог Mysql

sasha_tinkoff Aug 4 2009 at 07:55

Пора уже отходить от mysql как просто от тупо списка таблиц с тупой выборкой данных, а относиться к ней более серьезно. Триггеры, процедуры, целостность, ограничения. Теперь вот партицирование.
Айс!

ferrari Aug 4 2009 at 08:05

множество из того, что вы перечислили недоступно на хостинге в силу безопасности, а если у вас на один проект — один(свой) сервер, то конечно, давно пора к этому относиться серьезно.

alexxz Aug 4 2009 at 08:05

Партицирование есть только на MyISAM, а слова «целостность», «ограничения» а также ещё много других СУБДшных слов отношения к MyISAM не имеют.

youngest Aug 4 2009 at 08:20

А вот не согласен. Партицирование отлично работает с innodb.

skachko Aug 4 2009 at 08:48

MyISAM и InnoBD — всё-таки разные вещи.

Joka Aug 4 2009 at 08:24

не правда, партицирование есть и в иннодб еще как минимум

из мануала

This example shows how to create a table that is partitioned by hash into 6 partitions and which uses the InnoDB storage engine:

CREATE TABLE ti (id INT, amount DECIMAL(7,2), tr_date DATE)
ENGINE=INNODB
PARTITION BY HASH( MONTH(tr_date) )
PARTITIONS 6;

alexxz Aug 4 2009 at 08:43

Прошу прощения, действительно ошибся 8(

django Aug 4 2009 at 12:45

Пока это всё только в начале пути и не стоить плясать раньше времени. С этими новшествами постоянно появляются проблемы, так что говорить о полноценной и удобной поддержке транзакций, процедур, целостности, etc ещё рано. Им ещё обкатываться и обкатываться.

voituk Aug 4 2009 at 20:13

Этим «новшествам» в MySQL уже года так 2.5 (точно помню что пробовал партишининг еще на старой работе, с какой ушел 2.5 года назад)
Также как и триггеры с хранимыми процедурами.
Так что новшества далеко не новы, и уже успешно обкатаны.
Потому статья в контексте MySQL слегка «баянистая», зато хорошо расписаны pros & cons самого подхода.

django Aug 4 2009 at 22:18

Обкатаны то обкатаны, только до нормального удобства им ещё далеко. Сходите в гугл например по запросу mysql transaction problem, вместо transaction можно подставить что душе угодно из списка и поймёте что радоваться пока особо нечему. Вопросы сыплются пачками, как сделать это, как сделать то, особенно от людей не понаслышке знакомых например с mssql.

voituk Aug 5 2009 at 06:24

Обилие вопросов от людей «знакомых с MSSQL» в топиках о MySQL совершенно ни о чем не говорит.
Разве что о растущей популярности последнего.

И если для MSSQL-щиков и Oracle-истов что-то работает не так как они привыкли, это отнюдь не говорит о проблемах в MySQL. Это говорит о том, что в MySQL это ввиду разных причин это попросту иначе.

dazed Aug 4 2009 at 08:12

Наконец-то это произошло в MySQL!!! Теперь можно будет на нем тянуть еще большие объемы:)

rrromka Aug 4 2009 at 08:22

Что значит «наконец-то»? Релиз MySQL 5.1 вышел почти год назад.

dazed Aug 4 2009 at 08:24

Просто даже не подозревал, что ввели такую вещь как партиционирование, думал опять по мелочам что-то добавили.

youngest Aug 4 2009 at 08:32

Именно по этому я и написал этот пост ;)

halkfild Aug 4 2009 at 08:19

да, мануалы полезнейшая вещь :)

спасибо за статью, а то я в одном проекте уже начал проектировать ручные механизмы такого партиционирования. Теперь можно потратить время на доработку полезного функционала.

UFO landed and left these words here

kurokikaze Aug 4 2009 at 08:25

Большое спасибо, думаю пригодится :)

merlin-vrn Aug 4 2009 at 08:30

А я раньше извращался с MERGE…

dex7er Aug 4 2009 at 08:30

Да, это конечно очень поможет при больших объемах БД. Спасибо.

andrew_tch Aug 4 2009 at 08:30

По хешам… да на отдельные диски… да мои 5 миллионов строк…
Пора ORM под 5.1 портировать, спасибо!

relec Aug 4 2009 at 15:41

эх, везет же, всего 5 миллионов строк…

greyhard Aug 4 2009 at 08:31

все это хорошо.
а как быть с автоматическим разбиением? или каждый новый месяц создавать новую таблицу? (

youngest Aug 4 2009 at 08:34

ну мне не жалко было в своем проекте прописать еще 20 строчек на 2 года вперед. А в целом есть операции переразбития партиций или изменения логики.

насколько я знаю, некоторые ребята создают партиции каждые сутки по крону

greyhard Aug 4 2009 at 08:42

ну это же хак ), как я понял по мануалам и форуму мускуль, им уже описали идею авторазбития, может скоро это и повится )

Goodkat Aug 8 2009 at 22:51

при перепартицировании каждые сутки по крону — строки переносятся из одного раздела в другой? или просто создаётся новый раздел для новых, с этого момента, данных?

TWINc Aug 4 2009 at 08:34

Вау! Сча как нарежу...)

ignar Aug 4 2009 at 08:47

Большое спасибо, не знал :)

roskov Aug 4 2009 at 08:52

А есть какие-нибудь конкретные данные? Например, 5 млн записей без партиционирования и с этим страшным словом :) Интересно какой прирост производительности.

youngest Aug 4 2009 at 08:54

dev.mysql.com/tech-resources/articles/performance-partitioning.html

roskov Aug 4 2009 at 09:07

Ох, спасибо. Результаты впечатляют.

MgDuke Aug 4 2009 at 09:18

Для SQL Server:
faiz.kera.la/2009/08/02/does-partitioning-improve-performance-for-sql-tables/

goran Aug 4 2009 at 08:55

Спасибо. Долго руки не доходят узнать все особенности 5.1, до сих пор все вручную делаю.

DIDJER Aug 4 2009 at 09:00

мат-часть рулит!

death_claw Aug 4 2009 at 09:13

От оно как оказывается. Давно хотел что то подобное с логами сделать. Да все как то башем и перлом в дамп, а тут такая красота.

stal Aug 4 2009 at 09:55

Ещё более интерснее была бы возможность распределения таблиц по разным серверам. Но пока это видимо не планируется.

alekciy Aug 4 2009 at 11:32

Поддерживаю. Партицирование конечно штука хорошая, но разнос по разным нодам было бы более заманчиво. Ну видимо предполагается, что это будет делаться средствами proxy.

DmitryKoterov Aug 4 2009 at 14:14

Разнос по разным нодам, кажется, называется «шардинг». И шардинг имеет гораздо более широкую применимость в нагруженных проектах, чем партицирование. Мне кажется, что партицирование — оно только для логов и полезно…

maovrn Aug 4 2009 at 14:28

Партицирование полезно для любой большой таблицы.

amima Aug 4 2009 at 10:07

Partitioning в контексте баз данных принято на русский переводить, как секционирование.
Слово партиционирование жутко неестественное, сильно режет слух.

alekciy Aug 4 2009 at 11:30

Где это принято? Общей нормы языка по данному вопросу нет (браузер/броузер) поэтому кто-то говорит секционирования, но лично я чаще всегда слышу партицирование. Хотя в яндексе конечно больше секционирования.

maovrn Aug 4 2009 at 14:26

Слова «партиция» и «партицирование» можно считать сленгом. Оно удобнее за счет того, что в названии сразу слышится действие, команда, которой можно сделать это самое действие. А в книжках, действительно, обычно используют слова «секция» и «секционирование».

kyb27 Aug 4 2009 at 10:36

По моему опыту если используются partitions то запросы обязательно надо прогонять через EXPLAIN PARTITIONS… Иначе легко вместо секции получить full-scan.

eudo Aug 4 2009 at 10:44

1. Можно при помощи ALTER сделать партицирование?
2. Как сделать порции по квартально, так что бы при наступлении нового квартала создавалась партиция?

youngest Aug 4 2009 at 12:00

1. сложный вопрос

насколько я видел обычно для этого делают несложную атомарную процедуру.
создать новую таблицу — перенести в нее данные — удалить старую — переименовать новую

2. например так

PARTITION BY LIST(YEAR(order_date) * 100 + QUARTER(order_date)) (
PARTITION y2005q3 VALUES IN(200503),
PARTITION y2005q4 VALUES IN(200504),
PARTITION y2006q1 VALUES IN(200601),
…

или так

PARTITION BY RANGE( TO_DAYS(order_date) ) (
PARTITION y2009q1 VALUES LESS THAN( TO_DAYS('2009-03-01') ),
PARTITION y2009q2 VALUES LESS THAN( TO_DAYS('2009-06-01') ),
PARTITION y2009q3 VALUES LESS THAN( TO_DAYS('2009-09-01') )
);

eudo Aug 4 2009 at 13:52

А если построить хеш по ГОД+НОМЕР_КВАРТАЛА, и указать PARTITIONS 20? (на 5 лет должно хватить)

UFO landed and left these words here

eugenius_nsk Aug 4 2009 at 11:14

Мы видим, что при выполнении этого запроса работа будет идти исключительно с «подтаблицей» p_2008.

— и это странно, потому что в запросе используется 2009-й год и партиция должна быть p_2009.

youngest Aug 4 2009 at 12:02

Опечатка в запросе, исправил

UFO landed and left these words here

dezconnect Aug 4 2009 at 11:41

Было в анонсах 5.1 на хабре
Ой как нравится мне когда мускульщики радуются хранимым процедурам и прочему =) Секционирование это да это молодцы =) но попрежнему плохо юзабельная СУБД =( и бизнес-логику унутрь БД не упихать =(

youngest Aug 4 2009 at 12:11

ну такое :)

Такое впечатление что заплатка на заплатке

есть небольшие фразы мелким текстом типа «Beginning with MySQL 5.1.12, the stored functions and procedures are not permitted in partitioning „

что сводит на нет весь бонус от их использования.

это как в триггере который не может менять таблицу которая его породила :)

Irokez Aug 4 2009 at 11:44

а есть ли ограничение на кол-во разбиений? например, я хочу разбить таблицу по пользователям

youngest Aug 4 2009 at 12:09

Не совсем понятно что вы имели ввиду под своим вопросом.

если максимально допустимое количество партиций — то 1024

Maximum number of partitions. The maximum number of partitions possible for a given table is 1024. This includes subpartitions.

Irokez Aug 4 2009 at 12:24

да, это и имел в виду, спасибо

ZiNTeR Aug 4 2009 at 11:55

Спасибо за действительно полезную публикацию — жму вашу мужественную руку.
Появился вопрос — можно ли пропивать партицирование, примерно таким образом:

PARTITION BY RANGE( TO_DAYS(%Current_date%)-TO_DAYS(order_date) ) (
PARTITION new VALUES LESS THAN( %10 дней% ),
PARTITION older VALUES LESS THAN( %20 дней%),
PARTITION oldest VALUES LESS THAN( %30 дней%)
)

Примерно такой подход возможен в реализации?
Если попытаться, к примеру, число дней прошедших с публикации проставлять через триггеры, а в таблице просто проставить статичные значения, будут ли данные по завершению работы триггера перемещаться из одной подтаблицы в другую?

youngest Aug 4 2009 at 12:05

Такой подход я боюсь невозможен.

Но как вариант можно каждые 10 дней выполнять

youngest Aug 4 2009 at 12:06

ALTER TABLE members REORGANIZE PARTITION p0 INTO…

youngest Aug 4 2009 at 12:07

Блин, залипает клавиатура :(

Вобщем, можно каждые 10 дней реорганизовать партиции под новые фиксированные даты, тогда MySQL самостоятельно пересортирует данные указанным вами образом

Хотя имхо это не совсем корректный подход к использованию данной фичи.

ZiNTeR Aug 4 2009 at 12:11

Чтож, будем делать то что можем и довольствоваться уже немалым — раньше и этой возможности небыло, а как появилась — сразу же изыски гурмана проступать начинают.

ExH Aug 4 2009 at 13:29

А как обстоит дело с добавлением новый секций в существующую таблицу?
Это можно делать через alter?

youngest Aug 4 2009 at 14:30

Да

ALTER TABLE tt ADD PARTITION (PARTITION np VALUES IN (4, 8, 12));

WASD42 Aug 4 2009 at 13:33

Более того, ускорение достигается даже в случае выполнения запросов, затрагивающих все данные во всех партициях — ведь в этом случае сначала происходит первичная «обработка» таблиц по меньше, потом данные объединяются и производятся финальные вычисления.

По-моему далеко не всегда это будет быстрее. Насколько я понимаю, индексы строятся тоже для отдельной партиции таблицы. Получается, что при объединении результатов выборок из нескольких партиций дальше mySQL будет искать уже по временной таблице без индексов.
С другой стороны, это ускорит выборку, если никаких дальнейших действий с выбранными из партиций данных производить уже не надо.

youngest Aug 4 2009 at 14:31

если у вас идет выборка по всей базе — то она обязательно идет с агрегированием

ускорение в данном случае достигается за счет того что каждую партицию можно по очереди загрузить в оперативную память и все сделать без временных таблиц

выигрыш именно в этом

maovrn Aug 4 2009 at 14:30

Я работаю с Oracle, поэтому немного не в курсе, но любопытно. Поддерживает ли mySQL субпартицирование — разбиение партиции на более мелкие подпартиции? И возможно ли создание локальных индексов (по одной из партиций)?

youngest Aug 4 2009 at 14:33

1. да, субпартицирование поддерживается (правда лично я никогда не понимал зачем :)
2. индексы ВСЕГДА строятся по каждой из партиций отдельно.

maovrn Aug 4 2009 at 14:49

Спасибо, все это очень вкусненько :-)
Субпартиции нужны для того же, что и партиции — разбивка большой таблицы на более мелкие части для удобства хранения и поиска в ней. Например, у нас почти все таблицы разбиваются на партиции по дате (месяц/день), при этом каждая четвертая еще и субпартицируется по региону.

impass Aug 4 2009 at 15:35

Вопрос в догонку: есть ли какие-то готовые средства для определения какой диапозон рядов является наиболее часто запрашиваемым с целью равномерного распределения нагрузки между серверами?

youngest Aug 4 2009 at 19:09

задача не нормально распределить данные, а определить наиболее частые и тяжелые запросы на выборку данных и оптимизировать их

impass Aug 4 2009 at 19:11

Вообще говоря, зависит от задач. :)
А если мне необходимо делать выборку из всей таблицы или бОльшей её части?

youngest Aug 5 2009 at 06:56

но вот я приводил пример — данные о пользователе, в случае если их несколько десятков миллионов.

тогда просто hash от primary ID :)

l0rda Aug 4 2009 at 17:18

спасибо за информацию, чую пора переходить на 5.1

UFO landed and left these words here

youngest Aug 5 2009 at 11:03

возможность использовать несколько индексов есть и так, если построить по ним составной индекс

вот да, для случая с fulltext составным индексом только через partitioning

UFO landed and left these words here

AGvin Oct 22 2010 at 13:09

Кто может знает насчет partitioning при использовании FOREIGN KEY?

При попытке разбить таблицу мне выдает:

1506. Foreight key is not yet supported in conjunction with partitioning

… когда же появится?

adrianov Nov 9 2010 at 22:04

Есть значительное ограничение, что если в таблице есть уникальные ключи, в том числе и PRIMARY, то каждый из этих ключей должен включать в себя все столбцы, по которым производится разбиение.

Например, у нас есть форум и есть таблица сообщений, где есть поля post_id и topic_id, где post_id — уникальный код сообщения, а topic_id — ссылка на тему форума, в котором содержится это сообщение, то разбить таблицу по полю topic_id не получится. Потому что она не входит в уникальный ключ post_id. А если сделать ключ (post_id, topic_id), то выйдет так, что может быть один и тот же код сообщения в разных темах форума. И поле post_id утратит уникальность.

Ещё одно важное ограничение — нельзя использовать FULLTEXT индекс.

P. S. Написано по горячим следам после того, как я хотел ускорить работу форума с 1,6 млн. сообщений.

VelarThind Mar 7 2011 at 14:50

могу ошибаться, но там могут быть проблемы из-за теперешней ситуации с мускулом. то есть на сколько я понял из информации на оф. сайте там есть что-то связанное с расширенными возможностями этой субд при покупке что-ли поддержки или какой-то лицензии. так же мне так показалось, что есть довольно сильные различия в различных сборках mysql, потому что дома на одной сборке работали партишены, на сервере, буквально на предыдущей не особо работали.
так же стоит хорошенько взвесить уровень разбиения и какой именно тип разбиения выбрать, ибо может сильно сказаться в обратную сторону производительности (как-то провел неделю, исследуя различные способы разбиения на части таблицу в 150млн записей).

ohifck Mar 22 2012 at 06:10

Не хватает ещё слов «при партицировании insert/update проиходит быстрее» так как перестраиваются малые индексы в подтаблицах а не один большой индекс на всю таблицу.