adamant 11 окт 2011 в 08:09

Выбираем дисковую систему для базы MySQL

3 мин

32K

Блог компании Битрикс24

+51

Комментарии 84

AlexSerbul 11 окт 2011 в 08:17

Спасибо, интересно. На, мягко говоря, «не очень быстрых» дисках EBS амазона — создание софтварного рейда для ускорения производительности, пожалуй, единственное решение. Для RDS базы данных они тоже, согласно документации, поднимают софтварные рейды.

isden 11 окт 2011 в 08:22

> Требуется поддержка SSD в серверах (контроллер, драйверы).

Эмм… Поддержка SATA III? Или вы о PCI-устройствах?

> SSD — это дорого.

Имхо, сильно дешевле чем RAID 10 с кучей дисков.

А на операциях random read/write топовые SSD вообще вне конкуренции.
Ну как вариант еще — держать всю базу в ОЗУ.

adamant 11 окт 2011 в 08:27

RAID 10 — ровно в два раза дороже. А SSD?

И, главное — «железная» инфраструктура плохо масштабируется.

Поэтому описанное решение в большей степени ориентировано на «облако».

imageofyou 11 окт 2011 в 09:19

>> RAID 10 — ровно в два раза дороже. А SSD?
Почему в два? Отказоустойчивость на SSD дисках тоже надо обеспечивать.
Вы не учитываете стоимость контроллеров (и полок), стоечного места, электричества, охлаждения.
Конечно, все это начинает сказываться только на действительно быстрых дисковых подсистемах — со скоростями больше 5000-6000 iops.
Например, чтобы получить 5000 iops вам потребуется примерно 24 (5000/200 с округлением до четного вверх, но мы округлим вниз — до 24; зачем — будет видно дальше) дисков. При цене диска (SAS 300 Gb 15000 rpm — диски меньшего размера сейчас у вендоров не популярны) примерно $300-$350 получаем $7800 — $9100.
Для сравнения, пара промышленных SSD (например от Делла; насколько я знаю, они используют диски от Pliant) стоит $9198 ($4599 за штуку), которая даст вам производительность на уровне 100000 iops!!!
При этом традиционными дисками вы полностью забьете всю полку (если опять же ориентироваться на железо Делла, а именно на MD3220 емкостью 24 диска — вот почему я округлял вниз), а в случае с SSD у вас еще останется куча места для дисков.
SSD диски в некоторых сценариях оказываются намного предпочтительнее традиционных HDD — SSD дают существенную разницу в скорости при сопоставимой стоимости.

Dyr 11 окт 2011 в 11:33

Если речь идёт о SSD в RAID, то бессмысленно закладывать «промышленные SSD» в его конфигурацию: массив недорогих SSD будет дешевле, надёжнее и, пожалуй, быстрее, нежели вышеупомянутые.
Ну и потом, увеличение размера оперативной памяти будет скорее всего эффективнее для MySQL по отдаче с цены гигабайта/производительности, чем дисковая подсистема.

imageofyou 11 окт 2011 в 11:43

К сожалению, не все дисковые полки умеют работать с SATA дисками. Например, упомянутая мной выше Dell PowerVault MD3220 понимает только SAS. А SAS диски — только промышленные (их вообще всего с десяток моделей наберется).
Использование подобных полок в нашем случае — необходимость, т.к. они нам нужны для создания failover-кластеров.
Опыта работы с MySQL, к сожалению, не имел; только MS SQL Server. Поэтому прокомментирую из собственного опыта: На наших серверах дальнейшее увеличение объема памяти не всегда оправдано (на текущий момент процент попадания запросов в кеш — 99,5% при 128 ГБ памяти на сервере и БД более 1 ТБ). Например, нагрузочное тестирование показывает, что узким местом в нашем случае становится tempdb (ее-то мы и будем переносить на SSD).

Dyr 11 окт 2011 в 11:56

Давайте уж уточним, что на самом деле понимает, только как обычно, особенные ;)
Конечно, полки на лету не меняют, но я бы всё же посмотрел в сторону «обычных» полок от, скажем, Infotrend'a с поддержкой «обычных» SSD.
Я не знаю MS SQL Server, но создание tempdb это разве не создание БД, которая не влезает как раз-таки в память?

У Dell кстати, лежит любопытное исследование: SSD vs HDD Price and Performance Study.

imageofyou 11 окт 2011 в 12:38

Уточните, плз, в каком именно месте написано, что понимает? Мы пробовали — у нас результат совпадает с мануалом — т.е. полка с САТА дисками работать отказывается.
Про Инфортренд мы в курсе. Но как-то стремно — нам нужен очень высокий уровень поддержки и есть сомнения, что партнеры инфортренда смогут его обеспечить.

У MS SQL Server есть активности (не считая логирования), которые сервер пытается «провести» через диск даже при достаточном количестве оперативной памяти — в этом случае используется tempdb.

Dyr 11 окт 2011 в 12:40

http://www.dell.com/us/enterprise/p/powervault-md3200/pd#TechSpec:

…
2.5" Drive Performance and Capacities
…
Solid State Drive (SSD) available in 149GB (available in 3.5" HDD carriers)

imageofyou 11 окт 2011 в 12:44

Да, но где сказано, что это SATA диски?
Используемый Dell'ом Plink — это SAS. MD32x0 не поддерживает SATA. А подавляющее большинство SSD дисков — SATA, а имеющиеся на рынке SAS SSD не сильно отличаются по цене от Plink.

Dyr 11 окт 2011 в 12:54

Ну так я специально и подчеркнул, что особенные.

Почитал по tempdb, несколько в недоумении, в MySQL всё гораздо проще:
http://dev.mysql.com/doc/refman/5.5/en/internal-temporary-tables.html. Самое важное:

If an internal temporary table is created initially as an in-memory table but becomes too large, MySQL automatically converts it to an on-disk table. The maximum size for in-memory temporary tables is the minimum of the tmp_table_size and max_heap_table_size values

Первая десятка результатов гугления же по tempdb показывает только советы заранее allocate'ить место большим файлом tempdb да размещать его на больших дисках, из чего я делаю вывод, что MS SQL ~~настолько тупой, что~~ не умеет настраивать размер временных таблиц в памяти.

Dyr 11 окт 2011 в 12:55

*размещать его на больших дисках => размещать на быстрых дисках

mr_avi 11 окт 2011 в 08:55

SSD дохнут, их для базы лучше не исопльзовать

isden 11 окт 2011 в 09:02

Тут недавно ребята с рутрекера писали (см. habrahabr.ru/blogs/linux/129551/#comment_4290722 и комменты в треде) о своем опыте использования SSD. В 2-х словах — слухи о высокой смертности SSD сильно преувеличены. И в частности:
— На рто используются несколько PCI-X плат OCZ с SSD маленького обьема, на них лежат особо критичные к скорости БД. Работают около года, отказов пока не было. Оказались в разы быстрей ( и в разы же дешевле) SAS кеш-контроллеров с 15к винтами. Как раз их и дубасят запросами на запись и чтение круглосуточно.
— Ну в крайнем случае можно и RAID1 из 2-х дисков сделать.

mr_avi 11 окт 2011 в 09:06

Мы использовали для статического контента, отдают быстрее (http://habrahabr.ru/blogs/nginx/108958/).
А на счет базы, то с полной репликой, да, можно исопльзовать.

crea7or 11 окт 2011 в 14:03

Не чаще обычных.

mr_avi 11 окт 2011 в 14:07

При очень большом кол-ве обращений — чаще. При низком — хз.

crea7or 11 окт 2011 в 14:11

От чтения им вообще ничего не будет. От записи надо смотреть и считать. У меня даже спец прога написана для этого дела SsdReady, для хабралюдей — бесплатно по этой ссылке.

mr_avi 11 окт 2011 в 14:15

Да вот ставили знакомые, за +-год все ссд-шки подохли,
действительно, неправильно написал, важна перезапись,
там был гарячий кеширующий (гарячий-холодный кеш) сервер всяких картинок.

crea7or 11 окт 2011 в 14:41

Ну у меня конечно в режиме домешне-рабочего использования, но 3 ssd от интела вполне живы и здоровы — третий год пошёл.

mr_avi 11 окт 2011 в 15:57

В режиме домашнего использования они почти вечны:) Те же флешки, нетбуки, телефоны ни у кого никогда не исчерпывали свой лимит.

adamant 11 окт 2011 в 17:18

Домашний и промышленный режимы работы — принципиально разные. ;)

Во всем — винты, блоки питания, корпусы…

chaos666 11 окт 2011 в 08:22

Проблема записи важнее чем чтения.
так что лучше её решите.

adamant 11 окт 2011 в 08:25

Какое соотношение SELECT / UPDATE / INSERT на большинстве проектов?

chaos666 11 окт 2011 в 08:40

на хорошем проекте SELECT очень мало, остальное именно UPDATE / INSERT

adamant 11 окт 2011 в 08:44

Вы ведь, наверняка, кэш подразумеваете?

Он — не панацея. Особенно на многопользовательских проектах (форумы, соц. сети и т.п.)

chaos666 11 окт 2011 в 08:46

да и кэш в том числе.

а какое соотношение обычных сайтов к многопользовательским?

adamant 11 окт 2011 в 09:03

Я не знаю соотношение. Но мало можно найти сейчас сайтов, где нет регистрации пользователей в том или ином виде.

Это значит, что многим показывается персонифицированная информация.

chaos666 11 окт 2011 в 09:29

сайты с регистрацией != форумы, соц. сети и т.п

Grundiss 11 окт 2011 в 08:32

Для многих крупных высоконагруженных веб-проектов зачастую «узким» местом в производительности становится...

1С-Битрикс

vvchik 11 окт 2011 в 08:48

При прочих равных, мне кажется, это не тема данной статьи, и ребята провели интересное исследование.

Grundiss 11 окт 2011 в 14:51

Согласен, исследование хорошее.
Предыдущий мой коммент из серии Юмор.ФМ :) Хотя, как известно, в каждой шутке...

tangro 11 окт 2011 в 08:45

>Если бы мы могли везде использовать SSD, нам бы вообще ничего не нужно было изобретать с точки зрения производительности, вся наша работа не имела бы особого смысла.

Пройдет еще год-два и так и будет.

adamant 11 окт 2011 в 08:52

Возможно. Но это не повод откладывать все большие проекты и год-два не работать. ;))

RomanPetrov 11 окт 2011 в 08:47

Хорошая статья.

Только, можно попросить в графиках:
1. Подписать ось Y — не для всех очевидно что это за числа, и указать, что лучше (меньшее число или большее)
2. Сделать более отличающиеся цвета у single disk и у RAID 10

Dyr 11 окт 2011 в 12:05

Особенно по последнему поддерживаю — как натуральный дальтоник каждый такой график для меня мучителен (насколько именно, отлично рассказано и показано здесь).

mr_avi 11 окт 2011 в 08:53

> На всех тестовых стендах использовалась файловая система ext4.
А что-то типа ZFS не пробовали?

adamant 11 окт 2011 в 09:01

Нет. Чаще всего используем или ext4, или xfs.

xfs используем, так как до недавнего времени в ней наиболее удобно поддерживался freeze (пока не появилась универсальная поддержка этого механизма в ядре).

И потом, zfs только недавно стала поддерживаться в Linux, а мы используем именно его.

mr_avi 11 окт 2011 в 09:11

Всё-таки

Основное преимущество ZFS — это её полный контроль над физическими и логическими носителями. Зная, как именно расположены данные на дисках, ZFS способна обеспечить высокую скорость доступа к ним, контроль их целостности, а также минимизацию фрагментации данных.

плюшка стоящая.

clickfreak 11 окт 2011 в 10:38

SSD можно использовать как кэш для классических HDD без дорогих аппаратных контроллеров. Программные решения:
— модуль ядра Flashcache от Facebook
— ZFS L2Arc, но тут уже без линукса

mr_avi 11 окт 2011 в 10:39

Под линукс есть еще Btrfs.

clickfreak 11 окт 2011 в 11:27

У btrfs есть возможность использовать отдельное блочное устройство для кэширования запросов? Сходу ненагуглил. Не подскажите где можно почитать?

В защиту Flashcache могу сказать что эта штука работает на уровне блочных устройств и использует Device Mapper. В работе выглядит как создание нового блочного устройства из основного и кэширующего, при этом данные на основном блочном устройстве при переходе на flashcache не теряются. В общем собирай блочные устройства как душе угодно.

P.S. Flashcache изначально писался для увеличения производительности InnoDB.

mr_avi 11 окт 2011 в 11:29

У btrfs есть возможность использовать отдельное блочное устройство для кэширования запросов? Сходу ненагуглил. Не подскажите где можно почитать?

я сам с ним на «вы», наверное только гуглить англоязычный интернет.

Почитал о Flashcache, интересная штука, не знал

swanrnd 11 окт 2011 в 10:48

Вот есть немного глупый вопрос. База огромной не будет.
Выгодно ли взять 2 SSD в RAID1?
Насколько такая система будет эффективна?

piroman 11 окт 2011 в 11:29

Выгодно. Хотя, RAID 1 для SSD это глупо, особенно одинаковых.
Умрут одновременно.

Проще на второй ssd раз в день делать полную реплику ( если потеря данных на несколько часов не критичны )

Dyr 11 окт 2011 в 12:08

>RAID 1 для SSD это глупо, особенно одинаковых. Умрут одновременно.
Я бы сказал, что крайне, крайне спорное утверждение.

Кстати, хорошая новость заключается в том, что умершие SSD как правило, позволяют с себя читать, переставая при этом записывать.

piroman 11 окт 2011 в 14:01

Есть опыт?

Dyr 11 окт 2011 в 14:13

Есть знание теории вероятности для первого и опыт коллег для второго.

piroman 11 окт 2011 в 15:13

не читал, но осуждаю :)

Dyr 11 окт 2011 в 15:55

Вы, полагаю, можете похвастать своим опытом?

piroman 11 окт 2011 в 16:09

могу и не хвастаться. Но опыт есть.

adamant 11 окт 2011 в 17:21

Можно поднять второй инстанс MySQL и на второй SSD делать реплику в real-time. Потеря — не несколько часов, а — в худшем случае — несколько транзакций. ;)

imageofyou 11 окт 2011 в 18:21

С трудом могу себе представить оправдание для потери «нескольких транзакций». Разве можно подобным образом проектировать системы для бизнеса (да и вообще)?!

adamant 11 окт 2011 в 18:26

Вы правда не прочитали, что я предлагаю альтернативу нескольким часам простоя? При этом — даже несколько в шутку…

piroman 11 окт 2011 в 18:45

Только, есть высокая вероятность, что запилятся они одномоментно.
Тогда уже лучше RAID1

НЛО прилетело и опубликовало эту надпись здесь

mr_avi 11 окт 2011 в 11:12

Думаю это не только битрикса проблема, а вообще любую оптимизацию проще начинать с оптимизации запросов и конфигурации таблиц, бд, etc. Это, обычно, дешевле и проще чем масштабировать железо, хотя в железо когда-нибудь всё-таки растущая система упрётся, тут-то эта статья и будет полезной.

vvchik 11 окт 2011 в 11:17

Не-а, как раз дешевле и проще железо купить, чем проводить анализ, менять архитектуру, платить разработчикам и тд, вот только когда-то упремся в такую штуку как масштабируемость, вот тогда начинают понимать, что ошибка-то в ДНК

mr_avi 11 окт 2011 в 11:18

Ну наверное зависит от ситуации, ну и да, лучше предварительно посчитать что дешевле, а еще лучше заранее писать правильно:)

nryzhonin 11 окт 2011 в 11:50

Как правило в таких проектах причиной медленной работы является не Битрикс, а качество интеграции проекта.

НЛО прилетело и опубликовало эту надпись здесь

adamant 11 окт 2011 в 17:25

Если разработчик работает с API, понимает архитектуру (и тогда в общем случае и не думает лезть напрямую в БД), то у такого разработчика огромный функционал кэширования компонентов. С которым количество запросов можно свести к нулю.

НЛО прилетело и опубликовало эту надпись здесь

nryzhonin 11 окт 2011 в 18:30

Узким местом БД становится только при не правильном использование API и ошибок проектирования. С правильным подходом на Битрикс получаются производительные проекты.

Если вы используете Битрикс, это не значит, что вы не должны включать голову. Впрочем как и на других платформах.

НЛО прилетело и опубликовало эту надпись здесь

adamant 11 окт 2011 в 17:23

Какой-то у Вас неудачный опыт.

На среднем сервере вполне себе получается под 100 запросов в секунду.

Подробно — здесь: www.1c-bitrix.ru/products/cms/performance/

ComodoHacker 11 окт 2011 в 11:46

> На запись — примерно та же картина, что и с одним диском.

Зачем так пишете? На графике же ясно видно, что любой RAID существенно уступает одному диску. Это в тесте не 16 Гб.

Еще непонятно, зачем в статье тест на 256 Мб и рассуждения о его неадекватности. Разве все это не очевидно?

adamant 11 окт 2011 в 17:26

> Разве все это не очевидно?

Нет, не очевидно.

Огромное количество тестов и выводов делается без учета этих факторов. Мы постарались показать, что получается на практике.

gag_fenix 11 окт 2011 в 16:08

Когда я выбирал RAID для себя (bitrix, innoodb), то получилось, что RAID6 не уступал, а в некоторых тестах даже обгонял RAID10.
Я естественно ожидал обратной картины. Успокоился на том, что либо у меня руки кривые, либо кривой наш китайский дисковый массив.

Иногда лучше самому провести тест, чем полностью полагаться на аналитику.

schors 11 окт 2011 в 18:29

А собственно, что удивительного? RAID5/6 на чтении действительно будет обгонять по iops´ам RAID10. С записью бедовее. Я ещё в начале прочтения удивился, почему взят raid10

gag_fenix 11 окт 2011 в 18:42

В том то и дело, что запись на RAID6 почему-то была быстрее.
Видимо RAID10 криво реализовали. Дисковый массив ведь полуnoname.

schors 11 окт 2011 в 18:43

А сколько дисков в страйп было на 10-ке, сколько дисков было на 6-ке? Вот смотреть что надо.

gag_fenix 11 окт 2011 в 18:49

4 там и там

schors 11 окт 2011 в 20:25

4 всего в 10-ке, или 2x4? В этом есть суть разница. 6-ка размазывает iopsы по всем дискам, а 10-ка только по N/2.

gag_fenix 11 окт 2011 в 21:16

2x2 было в RAID10. Т.е. из-за этого маленькая производительность была?

schors 11 окт 2011 в 21:21

Капитан очевидность подсказывает, что да. Проблема в рандомайзном конкурентном доступе к диску и ненулевому времени позиционирования головок. Соответственно, несколько дисков на которые размазаны данные дают очевидный прирост этих самых iops (операций ввода/вывода в секунду). Обсчёт там контрольных сумм и избыточность данных занимают времени намного меньше, чем множество позиционирований. Понятно, что по 4-ём дискам в raid6 или по двум в raid10 разница не ровно в два раза, но что-то около того.

gag_fenix 11 окт 2011 в 21:24

Спасибо за разъяснения.

schors 11 окт 2011 в 18:27

Я правильно из графиков понял, что один диск всегда выигрывает? (что в принципе логично)
Некстати, заявление про innodb странно, данные-то по нему всё равно разбросаны дай боже. Да и не все хранят их в одном файле — я разбрасываю, например.
Я бы сконцентрировал внимание на настройки кэша тредов, размера временных таблиц в памяти, скорости дисков на /tmp (где создаются временные таблицы — собственно, бич всяких выборок). Как вариант — держать вот этот /tmp на SSD или вообще на RAM-диске.

P.S. Хотя я бы вздохнул и при ваших мощностях просто аккуратно переписал всё с 0.

eexo 12 окт 2011 в 07:41

там две серии тестов, в первой он выигрывает, во второй нет.
для больших проектов переписывание с 0 это практически 100% проигрыш. пример — netscape, которые во время переписывания профукали всю свою браузерную долю, до которой фокс до сих пор не добрался.

schors 12 окт 2011 в 07:49

Не увидел там разницы. Везде наверху один диск.
Значит так переписывали.

eexo 12 окт 2011 в 08:16

16gb r и r/w рейд точно выигрывает, причем существенно. цвет у них только оч. схожий, легко перепутать.

nikolaikopernik 12 окт 2011 в 06:27

сами только пару дней назад переехали на SSD. Пока размер базы позволяет.

DjOnline 15 дек 2011 в 18:41

У вас садисткие наклонности, раз заставляете ломать глаза и разбираться в оттенка синего цвета.
Так сложно было использовать на графиках просто РАЗНЫЕ цвета?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий