Badoo Jan 11 2012 at 13:33

Clustered index в InnoDB и оптимизация запросов

7 min

18K

Badoo corporate blog

+52

Comments 41

shagguboy Jan 11 2012 at 13:44

SELECT * FROM messages WHERE message_id IN (....)
а почему IN а не INNER JOIN?

-4

alexxz Jan 11 2012 at 13:49

Вы, вероятно, подумали, что мы предлагаем вложенный запрос. Ни в коем случае! Подразумевается IN (1,2,3,4...). Вложенные запросы в MySQL даже не рассматриваем.

shagguboy Jan 11 2012 at 13:52

вельми странно. AFAIK IN (123) преобразуется в OR

alexxz Jan 11 2012 at 13:56

Ничего странного. Вложенный запрос приводит к вызову вложенного запроса для каждой строки внешнего. А не вычисляется один раз перед выполнением внешнего.

zerkms Jan 11 2012 at 14:01

Это истинно только для correlated subqueries. Нормальный оптимизатор СУБД не коррелированные запросы выполняет единожды (не уверен, как с этим в последних версиях mysql)

alexxz Jan 11 2012 at 14:12

A correlated subquery is a subquery that contains a reference to a table that also appears in the outer query.

dev.mysql.com/doc/refman/5.5/en/correlated-subqueries.html

Так что для данного случая дело будет обстоять именно таким образом.

zerkms Jan 11 2012 at 14:14

Эм, и какие у вас будут references к the outer query?

Внутренний запрос вообще никак от внешнего не зависит, и именно этим вы и пользуетесь, разделяя задачу на 2 запроса

alexxz Jan 11 2012 at 14:23

MySQL смотрит referrence к таблице, а не к значению. Таким образом вложенный запрос вида select * from messages where messageid in (select messageid from messages where user1=....limit) не будет оптимизирован как надо.

zerkms Jan 11 2012 at 14:32

Эм, вы уверены? Если это так — то ппц :-S

alexxz Jan 11 2012 at 14:41

Вы заставили меня сомневаться. Решил проверить и вот, что я получил
There is an error in select query This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'

Сижу думаю как можно проверить.

humbug Jan 11 2012 at 20:57

set @off = 10;
set @lim = 5;
select * from messages where messageid in (
    select messageid from (select messageid, (@n:=@n+1) as n
    from messages, (select @n:=0) a) x 
    where n > @off and n <= @off + @lim
);

Тока никому не показывайте…

Sannis Mar 20 2012 at 18:39

О боже, это напоминает мне MSSQL мантры… Как же всё печально.

zerkms Jan 11 2012 at 14:33

Первый же пример по вашей ссылке делает акцент именно на полях, а не таблицах

zerkms Jan 11 2012 at 14:36

Скорее нужно ссылаться на dev.mysql.com/doc/refman/5.5/en/subquery-restrictions.html

Который объясняет, что mysql сам переписывать не коррелированные запросы — в коррелированные. Т.е. проблема, что вы описали, существует («не будет оптимизирован как надо.»), но причины у неё — иные (запрос хороший, а оптимизатор тупит)

alexxz Jan 11 2012 at 14:44

Большое спасибо за ссылку. Как-то раньше не попадалась эта страница мне на глаза.

zerkms Jan 11 2012 at 14:45

Я на неё пришёл из бага bugs.mysql.com/bug.php?id=9090. А в баг — с вашей страницы ))
Честно говоря, тоже впервые её вижу :-)

shagguboy Jan 11 2012 at 16:26

Set back to «Closed». 6.0 features have been backported to 5.5 series.

RusMikle Jan 11 2012 at 19:19

в этом плане оптимизатор у mssql 2008 рулит

Newton Jan 11 2012 at 19:38

Вложенные запросы тожно нужно уметь делать:
select * from messages m inner join (select messageid from messages where user1=1 and user2=2 limit) m2 on m.messageid = m2.messageid

zerkms Jan 11 2012 at 13:59

И OR в этом случае отлично оптимизируется всё равно

zerkms Jan 11 2012 at 13:59

>> Пользователей в нашей системе всего 10, таким образом, у каждой пары собеседников будет в среднем по миллиону сообщений.

А разве среди 10 собеседников не 45 уникальных пар?

alexxz Jan 11 2012 at 14:10

Во первых, история — сущность личная для каждого пользователя и он может её удалять её на своё усмотрение. Так что получаем как минимум 90.
Во вторых пользователь может писать сам себе. (Оставшиеся 10)

А в третьих я упоминал, что это — иллюстрация проблемы, а не реальная структура. Скрипт просто наполняет таблицу случайными данными. Получается 100 пар.

zerkms Jan 11 2012 at 14:11

О, прикольно.
А почему возможность удаления сделали именно дублированием, а не флажками? Потому что места на винте много, а выбирать без дополнительного флажка быстрее? (хотя спорно, но всё таки)

alexxz Jan 11 2012 at 14:15

К пониманию этого быстро приходишь когда начинаешь делать шардирование по пользователям. У каждого пользователя в шарде должна быть его собственная копия данных. Пользователь должен работать только со своим шардом.

zerkms Jan 11 2012 at 14:17

А, шарды. Окей, не подумал :-)

hlomzik Jan 11 2012 at 14:10

Но сообщений друг другу они могут понаписать миллионы при должном старании)

hlomzik Jan 11 2012 at 14:11

А, понял о чём вы. Уже ответили.

egorinsk Jan 11 2012 at 14:11

Если у вас во втором случае 30 млню апдейтов работают так долго, может вам проще вообще пересоздавать таблицу со статистикой с нуля, чем обновлять большое число записей в существующей?

alexxz Jan 11 2012 at 14:18

В таблице есть данные, которые уже отсутствуют в основной системе. Это и удалённые пользователи и параметры вида «первый раз воспользовался мобильным приложением».

guyfawkes Jan 11 2012 at 14:35

Расскажите, пожалуйста, а как вы организовали сортировку 30 миллионов значений? Спасибо.

zerkms Jan 11 2012 at 14:38

ts является leftmost в ключе key(f1, f2, ts) и запросе типа
WHERE f1=const AND f2=const ORDER BY ts
Так что mysql отлично берёт и сортирует выборку, используя индекс

guyfawkes Jan 11 2012 at 14:42

Но я понял, что сортировка происходит не в базе, а сортируется содержимое файлов.

zerkms Jan 11 2012 at 14:43

А, пардон, понял вопрос неверно.

guyfawkes Jan 11 2012 at 14:46

Интересует, какие алгоритмы надо использовать, чтобы решить проблемы затрат памяти (30 миллионов сериализованных строк надо как-то обрабатывать ведь), хотя, возможно, я не так понимаю процесс решения.

alexxz Jan 11 2012 at 14:55

Основная идея такая — разбить на примерно одинаковые части. Отсортировать каждую из них в памяти (в несколько потоков). А затем осуществить слияние данных.

Это можно реализовать множеством способов. В данном случае мы воспользовались тем, что значения ключа сортировки равномерно распределены по множеству возможных значений. Потому мы разделили множество возможных значений на 400 диапазонов. Разбили данные на 400 одинаковых частей. Получили 400 файлов с данными. Затем поочерёдно перебираем эти файлы, сортируем в памяти и вставляем данные в таблицу.

seriyPS Jan 11 2012 at 15:06

Так вы потом эти 400 файлов сливаете? Или у вас 400 независимо отсортированных файлов?

alexxz Jan 11 2012 at 15:16

Давайте на примере
Диапазон значений 1-10000.

Разбиваю на 10 диапазонов 1-1000, 1001-2000,...,9001-10000.

Беру исходные данные и раскладываю по 10 файлам.
в первом файле 66,444,33,2,432
во втором файле 1039,1984,1433

Затем беру первый файл. Сортирую его в памяти и вставляю в БД
2,33,66,432,444
Беру второй файл. Сортирую его в памяти и вставляю в БД
1039,1433,1984

Так нагляднее?

guyfawkes Jan 11 2012 at 15:17

Ясно, понятно. Еще чисто утилитарный вопрос — чем сортировали параллельно? Я, к примеру, нагуглил готовые реализации многопоточного quicksort'а, но может, есть что лучше для этих целей.

alexxz Jan 11 2012 at 15:24

В данной задаче многопоточность не используется, ибо в памяти сортировка работает и без того быстро. Но думаю, что скорее всего использовали бы PHP. У нас уже есть подходящие классы для реализации изолированной многопоточности в фреймворке.

seriyPS Jan 11 2012 at 15:19

Понял. Map-Reduce короче.

alexxz Jan 11 2012 at 15:26

Да. В обобщённом случае — MapReduce.