Advanserv Dec 24 2012 at 09:27

Что делать, если вышел из строя RAID-контроллер?

2 min

70K

ADVANSERV corporate blogIT Standards*

Tutorial

167

Comments 167

Alukardd Dec 24 2012 at 09:35

В общем мой вам совет: если это не СХД, а RAID в самом сервере, например под ОСь, то используйте программный RAID (mdadm, ZFS и т.д.).

soomrack Dec 24 2012 at 23:44

Абсолютно правильный совет.

Но если уж нужна железка (а выигрыш при 8+ дисках гигантский), то:
1. брать нужно стандартную, желательно одну из наиболее распространенных;
2. если на две денег нет, то иметь в планах прикупить примерно через один гарантийный срок такую же или поновее, но обязательно той же серии и от того же производителя;
3. не использовать сложные рейды (raid5, raid6), а только простые, т.е. raid1 или raid10.

nitalaut Dec 25 2012 at 18:10

А в чём выигрыш железного раида (кроме write cache и батарейки)?

amc Dec 26 2012 at 22:48

Загрузочный диск сдохнет — узнаете.

-1

nitalaut Dec 26 2012 at 22:54

Лучше молчать, чем так отвечать.
На софтраиде сдыхал загрузочный диск и ничего, загрузился со второго.

amc Dec 28 2012 at 17:34

Ну-ну. Ножками (в лучшем случае через KVM) подошли и переставили загрузочное устройство? Молодец. Что, само со второго загрузилось? Так если диск сдохнет не полностью, и система будет пытаться грузиться с него, а не со второго, кто будет отвечать за простой?
Так что лучше вам действительно молчать, раз не понимаете о чём говорите.

nitalaut Dec 28 2012 at 17:39

Да, загрузилось само.
Да есть kvm на всякий случай.
Сервисы всё продублированы, никакого простоя не будет.

amc Dec 28 2012 at 18:57

Ещё раз:
на первом (загрузочном) диске появился сбойный сектор в области загрузчика либо данных, препятствующий корректной загрузке ОС, как ваша замечательная система определит что надо грузиться со второго диска?

>>Сервисы всё продублированы, никакого простоя не будет.
О да, конечно.

merlin-vrn Jan 22 2013 at 14:04

В биосе порядок загрузки выставил, не смог первый пункт — пробует второй, не смог второй — пробует третий. Загрузочный сектор есть на каждом из них, система способна стартовать с любого диска.

Я вообще не понимаю, в чём проблема тут. Сто лет в обед так делаю, всё штатно.

P.S. Кроме того, жёсткие диски крайне редко выходят из строя во время простоя машины. Всегда если диск сдох — это внезапное для ОС событие во время работы сервера. Ну, тут он спокойно меняется на горячую, потому как AHCI.

amarao Dec 24 2012 at 09:35

1. Не использовать аппаратный рейд для хранения данных.
2. Не использовать аппаратный рейд для хранения данных.
…
99. Не использовать аппаратный рейд для хранения данных.

linux-raid куда функциональнее любого хардварного решения, плюс нет никаких проблем с тем, чтобы увидеть диски на другой машине или HBA.

+13

mark_ablov Dec 24 2012 at 09:47

linux-raid проц не жрёт? особенно на каком-нибудь raid5/6, а не на тупых 0/1.
Ну у не всегда sata-гнезд на материнке хватает на все диски.

amarao Dec 24 2012 at 09:49

Любой рейд-контроллер может быть превращён в тупой HBA. Адаптек при этом там свои мета-данные всё-таки оставит, а LSI станет настоящим HBA.

Проц, который «жрёт» raid5/6 обычно не ощутим на фоне тех лагов, которые с собой приносят 5/6 рейд из-за пенальти по записи. В реальности большинство применений raid — 10ый или первый, и там linux-raid уделывает большинство аппаратных решений.

Вообще, все рассуждения о «высокой нагрузке на CPU от raid5» относятся ко временам P1-P2, когда подарить 300-800МГц на дисковую подсистему было непозволительной роскошью.

mark_ablov Dec 24 2012 at 09:56

> Любой рейд-контроллер может быть превращён в тупой HBA
Дык почему бы тогда не использовать возможности аппаратного рейда, если уже воткнули карту?
Софтовое решение быстрее?
Мне всегда казалось что хардварная карта производительнее, даже и не глядел в сторону linux-raid'a.

amarao Dec 24 2012 at 10:06

На основании чего вы считаете, что дохлый и тухлый процессор на рейде сможет показать производительность добротного процессора от intel? (thumb rule: у кого кулер круче, тот и быстрее).

У меня в тестах (я, правда, никогда 5-6 рейды в серьёз не воспринимал для продакта) linux-raid показывает более высокую производительность, чем LSI (mpt2sas) и adaptec (5-6 серии).

Есть единственный случай, когда аппаратный рейд обгоняет софтовый by-definition. Это когда HBA воткнут в мамку узкой шиной (например, PCI-E x4), а сам имеет много сосок до дисков. В этом случае в софтовом рейде можно огрести bus saturation. Но это а) проблема тухлого HBA б) в реальной жизни никого не волнует, ибо random io и latency значат больше, чем пропусная способность.

Есть ещё один случай, когда аппаратный рейд хорош — это wb режим кеша. Но

а) В этом случае уровень доверия программистам из жаркой Индии (я не шучу — посмотрите на фамилию мейнтейнера mpt2sas) должен быть запредельным — софт должен не только всё правильно делать, но и правильно обрабатывать неправильные ситуации с исчезновением питания. Я бы к этому отнёсся со скепсисом.… И у меня есть случай в практике, когда wb-кеш не был скинут после особо изощрённой аварии на бэкплейне (полке с дисками).
б) write-back ускоряет некоторые виды записи, но совсем не спасает от холодного чтения, которое, как всегда, оказывается сюрпризом.

NickyX3 Dec 24 2012 at 10:45

На основании чего вы считаете, что дохлый и тухлый процессор на рейде сможет показать производительность добротного процессора от intel? (thumb rule: у кого кулер круче, тот и быстрее).

А с чего вы взяли, что он дохлый и тупой? ИМХО спец проц, пусть даже он и знаимеется только подсчетом контрольных сумм — должен быть быстрее процессоров общего назначения. Таже Intel не зря выпускает, к примеру, сетевушки с iSCSI «ускорителями» и TCP/OE

bormotov Dec 24 2012 at 10:57

Не знаю с чего amarao взял, но в любом случае, есть смысл мерять.
Вопрос только, кто-то бы занялся грамотным тестированием, да опубликовал результаты.

Лично я (тоже умозрительно) склонен считать, что необходимость своего процессора на raid контроллере в текущий момент времени сильно преувеличена.

NickyX3 Dec 24 2012 at 11:08

Насчет рейдов не скажу, возможно кстати в обычной работе софтовый рейд сравним с аппаратным, но ИМХО опять же — время ребилда на софтом рейде на загруженной машине будет дольше. По опыту TCP/OE на интелах сетевках разгружает процессор весьма и весьма

bormotov Dec 24 2012 at 11:24

Ситуация «ребилд массива» — насколько частая? (опять-же, умозрительно) вроде не очень.
Есть ли возможность разгрузить машину, у которой возникла эта ситуация от другой нагрузки?
Там могут быть другие очень интересные моменты которые тоже есть смысл померить…

Например, производительность массива на аппаратном контролелре всеравно может проседать при ребилде, и это может сказаться на производительности системы в целом больше, чем более высока нагрузка на CPU при софтовом.

NickyX3 Dec 24 2012 at 11:33

Насчет частоты. По нашему опыту обычные HP SAS MDL ENT 2.5" 72 Gb, 15k на серверах HP DL380G5 вылетают в среднем раз в 3-4 сесяца (учитывая что серверам уже 3-4 года это нормально). Ребилд одного такого диска на контроллере P400i занимает 10 минут примерно. Диски по 6 штук в RAID6. Деградаций по скорости не замечено

Merlyel Dec 25 2012 at 17:46

Ситуация «ребилд массива» — насколько частая? (опять-же, умозрительно) вроде не очень.

М…

57 0 * * 0 root [ -x /usr/share/mdadm/checkarray ] && [ $(date +\%d) -le 7 ] && /usr/share/mdadm/checkarray --cron --all --quiet

Ну в аппаратных рейдах есть еще всякие плюшки кроме производительности — как минимум surface scan дисков делается периодически, благодаря которому я знаю, что мне нужно сейчас на 36 дисков в дисковых полках 2 новых диска, т.к. два текущих работают, но могут сдохнуть. В софтварном рейде частично спасает SMARTS, частично вот эта запись в кроне. Но эта же запись нагружает и проц.

bormotov Dec 25 2012 at 17:54

Конечно, у аппаратных штучек есть много всякого, вопрос в том, как эти все хорошие фишки влияют на итоговые «бизнес показатели». Там ведь всё очень нелинейно.

Я к тому, что по-хорошему, нужно это все считать, и находить свою точку баланса.

Но обычным людям считать либо лень, либо они просто плохо представляют себе методику, как чего делать, и какие показатели снимать, что именно важно в их ситуации.

Merlyel Dec 25 2012 at 18:58

Я думаю, вообще производители аппаратных рейдов и СХД ориентируются на очень большие компании, в которых системный администратор и администратор СХД — это совершенно разные люди (или даже отделы). И сисадмин просто говорит — мне нужно 200 гигов быстрого хранилища или 5 тер некритичного к скорости хранилища. Все.
В таком случае настраивать на парке из сотен серверов мдадм — да нафиг сисадму это нужно. Это работа администраторов СХД — вот пусть они и думают, как организовать скорость, надежность, отказоустойчивость, своевременную замену дисков и т.д. Пусть тестируют и хоть на NASах самодельных поднимают, все вопросы уже будут к ним. При этом пускать на сервер администраторов СХД сисадмы совсем не обязаны. Вот тут и появляется внешнее хранилище :)

merlin-vrn Dec 26 2012 at 21:44

Ну, пускать на сервер и доверять критические функции — не одно и то же.

Например, винда отлично умеет разделять права доступа. Ты имеешь права, скажем, на бекап, но не имеешь на управление пользователями.

Линукс тут похуже, но с костылями типа sudo тоже вполне можно сделать так, чтобы группа СХД не конфликтовала админами и не имела лишних прав.

opium Dec 26 2012 at 22:11

Ну ребилд 6 рейда в софтварном рейде всегда у меня проходил быстрее на загруженном сервер по ip, чем на adaptec или areca.

amarao Dec 24 2012 at 11:26

Если бы контрольные суммы были единственным видом нагрузки — говорить бы не о чем было бы. latency сильно зависит от того, насколько процессор умеет быстро реагировать на запросы и ответы, оно же определяет максимальную производительность.

Почему я считаю, что рейдовые процессоры тупее центральных? Видимо, потому что если бы было иначе, то в роли центральных была та штука, что на рейде стоит.

Не надо путать оффлоадинг вычислений и функцию целиком. Условно говоря: если бы рейд просто предоставлял dataengine для быстрого рассчёта crc (и, что важнее, для быстрого реконструирования, например, double failed raid6) — вопросов бы не было. Но ведь он же и всё остальное делает.

Это как если бы intel в сетевую карту засунула веб-сервер. Догадайтесь, кто быстрее работать будет — добротная связка из haproxy/nginx (или даже kernel web server, для тонких ценителей), или же тот же веб-сервер, реализованный на хилом процессоре сетевухи?

Но интел умнее — у них только оффлоадинг того, что можно в плис запрограммировать. Считать crc, tcp там (в ограниченных объёмах) собирать — это да. А вот заниматься более интеллектуальными вещами — лучше это оставить для более интеллектуальных систем.

NickyX3 Dec 24 2012 at 11:41

Но ведь он же и всё остальное делает

И что же он там такое делает? Обеспечение работы дисков и логики самого массива думается процентов 10 занимает у них, остальное это числодробильня.
Вообще ситуация забавная с рейдами в данный момент. Куча производителей для рейдов использует как раз таки процессоры общего назначения. Xyratex/IBM в своих СХД (у меня вот к примеру Xyratex E5412 Direct Attached SAS) использует на контроллерах Intel Celeron. Их хватает. Но опять же под спец софтом, а не под linux/etc.

JDima Dec 24 2012 at 13:45

Не надо путать оффлоадинг вычислений и функцию целиком. Условно говоря: если бы рейд просто предоставлял dataengine для быстрого рассчёта crc (и, что важнее, для быстрого реконструирования, например, double failed raid6) — вопросов бы не было. Но ведь он же и всё остальное делает.

Это как если бы intel в сетевую карту засунула веб-сервер. Догадайтесь, кто быстрее работать будет — добротная связка из haproxy/nginx (или даже kernel web server, для тонких ценителей), или же тот же веб-сервер, реализованный на хилом процессоре сетевухи?

Узкоспециализированная логика может оказаться быстрее процессора под любыми ~~стероидами~~ расширениями.
Логика в современных роутерах позволяет прокачивать через себя сотни гигабит или терабиты трафика с обработкой каждого пакета на L4 (а это уже серьезно). Некоторые — с задержкой от момента начала вхождения пакета в порт до момента начала выхода пакета из порта в пару сотен наносекунд. Обычный IPoE трафик.
Есть аппаратные системы, способные полностью прогрузить относительно реальными данными такие платформы, анализируя микросекунды задержек и миллисекунды пропадания связи. Spirent Testcenter к примеру.

Есть и более простые примеры. До недавнего времени, пока не появились расширения AES-NI, современные ЦП могли шифровать лишь жалкие сотни мегабит в секунду. А что такое AES-NI? Фактически тот же специализированный акселератор, размещенный на одном кристалле с остальной логикой.

Так что (не конкретно про хранилища, а в целом) заточенная логика бьет универсальную. Только она дороже.

UFO just landed and posted this here

JDima Dec 24 2012 at 14:04

На самом деле, переделывать ASICи требуется довольно редко. Вот логику, которая их программирует, чаще, но она обычно крутится на тех самых универсальных чипах (в случае многотерабитных роутеров — нередко на самых обычных 4-ядерных ксеонах) и легко поддается перепрошивке.

amarao Dec 24 2012 at 15:29

На SCSI шине нет «заточенной логики». Там очень высокоуровневый протокол с большим количеством вариантов поведения.

Кроме того, там внутрях всё равно маленький дистрибутив (линукс или нет — не скажу), который исполняется не в виде программы для плиса, а как обычная программа для универсального процессора.

JDima Dec 24 2012 at 15:45

На SCSI шине нет «заточенной логики».

www.altera.com/literature/wp/wp-01093-arria-iv-gx-sata-sas.pdf в качестве простейшего примера.

там внутрях всё равно маленький дистрибутив (линукс или нет — не скажу), который исполняется не в виде программы для плиса, а как обычная программа для универсального процессора.

У хардварных роутерных платформ то же самое. Протоколами control plane ведает обычный процессор, иногда на нем тот самый линукс крутится. Но при этом ни один пакет с целевыми данными не проходит через процессор. Т.е. соседства OSPF и маршруты просчитываются обычным процессором, который только программирует специализированные чипы, отвечающие за передачу пакетов.

lexa Dec 24 2012 at 15:20

На основании чего вы считаете, что дохлый и тухлый процессор на рейде сможет показать производительность добротного процессора от intel? (thumb rule: у кого кулер круче, тот и быстрее).

На основании собственного опыта.
Не так давно, собирая для дома дисковый тазик, экспериментально выяснил, что на 8-ми дисках ZFS-ный RAIDZ2 (процессор i5-2400, памяти 8Gb, диски подключены к Adaptec 5805 как JBOD) банально медленнее адаптечного RAID6 с теми же дисками.
На моем личном паттерне — чтение-запись больших файлов в один поток (дисковый тазик — для работы с фото и кино).

Alukardd Dec 24 2012 at 15:53

Ну как бы ZFS это больше чем RAID, в придачу вы получаете дедупликацию, и систему снапшотов. Все эти плюшки образуют некоторые накладные расходы.
И всё равно, разница не должна быть настолько заметна, что бы говорить «банально медленнее».

lexa Dec 24 2012 at 19:13

Дедупликация была выключена, ZIL — по умолчанию, т.е. только для синхронной записи.

А разница — эдак раза в полтора. ~700-750Mb/sec для RAID6 и файловой системы поверх (UFS. Ext4, NTFS) и меньше 500 для ZFS

vabue Dec 24 2012 at 17:43

Но без write-back жизнь грустна и печальна.

Всё-таки двухкратный и более прирост в iometer — серьёзный довод, чтобы поставить аппаратный raid-контроллер с BBU.

amarao Dec 24 2012 at 18:03

Нет ничего более лукавого, чем показатели iometer и других тестов. wb позволяет заменить random write более крупными кусками write, выполняемого реже. И только.

Холодное чтение всё это кеширование сносит только так.

wb и прочее кеширование позволяет слегка повысить оптимальный метод эксплуатации, но при проектировании надо закладывать число шпинделей по пессимистичному варианту, когда всё IO в холодном чтении. Для него выставляется минимально-терпимые показатели и именно они используются для рассчёта системы.

А дальше кеши любого уровня лишь повышают качество сервиса с минимально-терпимого до хорошего и отличного.

Но вот обратный метод проектирования неправильный. Нельзя сказать «раз 4 шпинделя с wb показывают себя отлично, значит и в тяжёлом случае оно справится». Точнее, сказать можно, а вот работать не будет.

vabue Dec 24 2012 at 18:40

Попробую замучать вопросами :)

Холодное чтение — подразумевается чтение данных отсутствующих в кеше? Потому что гугл только про приёмы медиумов рассказывает.

А на какой показатель смотреть при выборе количества шпиндилей?

У меня небольшой опыт использования mdadm и виндового рейда. В основном делали Raid 1 и Raid 10 из 2-4-6 дисков. Но тот что был — показывал, что в случае необходимости перестройки массива, работа фактически парализовалась. В случае использования аппаратных контроллеров ребилд незначительно влиял на производительность дисковой подсистемы, и работать можно было. Может есть какие-то твики, позволяющие понизить приоритетность перестройки массива?

amarao Dec 24 2012 at 19:27

Холодное чтение — это чтение, которое гарантированно вытесняется из кеша между обращениями. То есть за каждым запросом нужно идти и читать с самого низкого уровня — с носителя.

Если с записью можно мухлевать, отвечая «угу, записал» (на самом деле положив в память), то с холодным чтением мухлевать не получится. Нельзя сказать «угу, прочитал» не отдав то, что прочитал. То есть каждая миллисекунда задержки — прямое увеличение latency.

Сами шпиндели определяются очень просто: число iops в худшем случае при заданной latency. Или latency при заданном числе iops'ов.

Скорость ребилда рейда у linux-raid контролируется переменными max_speed/min_speed. Если задирать min_speed, будет очень плохо для полезной нагрузки. Ни программный, ни аппаратный рейды не заставят диск читать/писать больше, чем он может.

vabue Dec 24 2012 at 20:44

Благодарю за ответы, познавательно.

Буду пробовать. Возможно мои предпочтения качнутся назад к soft-raid.

opium Dec 26 2012 at 22:10

В свое время тестили адаптеки, lsi и promise контроллеры в шестом рейде против линуксового софтварного, линуксовый победил на крупных файлах и большом количестве параллельных чтений.

vladon Dec 24 2012 at 09:51

linux-raid — понятно, а что для виндовых решений? (только без холивара)

Alukardd Dec 24 2012 at 09:54

Для системного диска, вроде как, ни чего, а для диска с данными винда сама умеет raid 0/1.

amarao Dec 24 2012 at 09:56

Системные тоже умеет. Там даже у бутлоадера появляется опция «грузиться с соседа».

merlin-vrn Dec 25 2012 at 16:07

Как это включить?

amarao Dec 25 2012 at 16:53

Винда сама прописывает, если загрузка с dynamic disks, которые включены в raid1. (ощущаю себя очень странно, рассказывая как работает винда).

merlin-vrn Dec 26 2012 at 21:38

В тот целый один раз, когда я это делал, оно «само» не заработало — не загрузилось со второго диска при отсутствии первого. Даже не начало грузиться, явно не было загрузчика.

amarao Dec 26 2012 at 21:47

Оно не ставит загрузчик (наверное, это можно сделать, я не смотрел как), т.к. raid mirror для dynamic disks резервирует не диск целиком, а только выбранные разделы.

Я говорил про то, что в меню у загрузчика появляется пункт меню «boot from plex» (речь про то, откуда читать системные файлы). Думаю, что скопировав загрузочный сектор, можно будет добиться загрузки и со второго диска.

amc Dec 26 2012 at 22:57

Не записался бут сектор и или загрзучик. Бывает в некоторых случаях.

vladon Dec 24 2012 at 09:59

raid 0, raid 1 умеет, а raid 1+0 не умеет

amarao Dec 24 2012 at 09:56

Последний раз, когда я видел винды, они умели софтовый рейд. Даже для загрузочного диска. Более того, в мою админскую юность у меня были сервера на софтовом рейде с виндами.

Впрочем, как и многие другие удачные решения майкрософт, софтовый рейд в виндах приложил все мыслимые и немыслимые усилия для того, чтобы с диска с одного сервера на другом не загрузиться.

vladon Dec 24 2012 at 09:58

ну на самом деле, на другом сервере не загрузится точно по такой же причине, что и в статье где kernel panic — нет драйвера, на идентичном железе или при наличии драйвера — загрузится.

вот только рейд10 винда не умеет всё-таки, это плохо.

amarao Dec 24 2012 at 10:08

(со скрипом впоминаю виндузятное детство) нет, там проблема не в драйверах HBA, а в том, что винда особым образом различает «свои» и «чужие» dynamic-диски, и просто так с чужими дисками работать отказывается (их надо явно импортировать). Причём если диск импортнуть на соседней машине (чтобы проверить на месте ли данные), то после этого загрузиться с такого диска уже не получится (т.к. диск надо «импортировать», а импортировать диск с которого грузиться невозможно, ибо интерфейс ещё не загружен).

Возможно я какие-то детали путаю, но общий вердикт: буэ.

Alukardd Dec 24 2012 at 10:30

Про kernel panic в статья, я, кстати, вообще не понял. С чего бы ей случиться? Если загрузчик смог найти и загрузить initramfs, то дальше, если предположить, что initramfs не смогла подцепить раздел с корнем в виду проблем с драйвером raid'а, она должна была по возмущаться и оставить нас наедине с busybox. Если же управление было таки передано ядру, то ни каких проблем дальше быть уже не должно было. Если косяк случился в момент попытки того же grub'а найти /boot раздел, то там ни каким kernel'ом ещё и не пахнет.

Merlyel Dec 25 2012 at 18:01

Подозреваю, что потому же, почему и образ системы с IBMмного сервера не завелся сразу на HPшном. У нас initrd сказал — «мне сказали загрузить модуль aacraid, а я не могу, т.к. не вижу ничего тако...». Пришлось загрузиться с лайва, убрать из initrd aacraid и добавить cciss.
Правда это было на RH4. Возможно, автор тоже пробовал на старом дистре?
Хотя что-то типа RH4 на G7…

merlin-vrn Dec 26 2012 at 21:45

Как просто чинится, верно?

А на винде — хрен сделаешь.

vabue Dec 24 2012 at 20:55

Активно использовали soft-raid в Win2003, Win2008, R2. Чуть больше десятка терминальных серверов на сравнительно небольшое количество пользователей. Использовали только Raid1.

Основные проблемы — массив разваливается от дуновения ветра. Штатная перезагрузка после установки обновления — ребилд. Внезапно повысилась нагрузка на диск — ребилд. Для полноты картины ребилд проводится не как в mdadm, а одновременно для всех разделов, и из-за этого время перестройки массива растёт экспоненциально.

В большинстве случаев отказались в пользу Intel Matrix Storage, в особо запущенных ставили аппаратный raid контроллер с BBU. Игорь Романовский в своём блоге объяснял проблемы подробнее.

Может в 2012 сервере всё стало лучше, но пока не пробовали.

UFO just landed and posted this here

merlin-vrn Dec 25 2012 at 16:12

В линуксе бывает прикольнее. Начался ребилд, дошёл до 95% и хопа — диск, на который всё копировалось, в hsp. Минут через десять снова начинается.

Выяснилось, что диск с единственной живой репликой, с которого всё копировалось, сам стал подыхать, и именно вот так, тихо и незаметно, madam реагировал на это: вместо воплей в dmesg — просто останов ребилда при ошибке чтения.

Нет-нет, вы не переживайте, всё живо и простой 0 секунд. В линуксе можно и не такое починить без останова сервера.

UFO just landed and posted this here

amc Dec 26 2012 at 23:00

>>массив разваливается от дуновения ветра
батенька, да у вас диски и контроллер говно были, а вполне возможно что и PSU.

vabue Dec 27 2012 at 01:56

На десятке разных серверов — как-то не верится. Да и переход на Intel-овский fake-raid помог всем.

amc Dec 28 2012 at 18:52

Зависит от того, из чего вы все эти «сервера» собирали.

По моему опыту — была пара машин на десктопных комплектующих, которые чаще, чем другие сваливались в ребилд, но это было раз в пол-года по большим праздникам, обычно же причиной ребилда было обычное некорректное завершение работы в связи с полным и тотальным пропаданием питания в розетке =)

Вообще, автоматический ребилд у vds может быть вызван только по одной причине, несовпадение magic number на дисках, что, в свою очередь, может быть только в одном случае — при вырубании питания (в т.ч. при перезагрузке при установке апдейта) диск не успевает дописать последние данные.
В моей практике была одна машина, которая стабильно, со 100% вероятностью, при штатном выключении на следующем запуске падала в БСОД из за некорректных данных, при этом можно было спокойно reset жать прямо во время работы и всё было нормально. В данном конкретном случае вырубил кеш на запись и всё стало нормально, сильно подозреваю что в вашем случае это тоже могло бы помочь.

ЗЫ Матрикс сторадж, кстати, не панацея, были и с ним проблемы, но это отдельный разговор =)

vabue Dec 28 2012 at 21:56

Да если бы десктопное. Постарше — на S3420, поновее на S1200. С появлением у интела такого бюджета смысла возиться с десктопами не вижу. Винты по бюджету заказчиков, но хуже чем саташные WD RE ставить не случалось.

Эх, и тут вырубать кэш на запись :)

Меня больше всего убивает желание системы синхронизировать все разделы сразу.

amc Dec 28 2012 at 22:51

Ну самые дешевые интелы — тот ещё приколизм… Возможно дело в драйверах Интеля на ICH, может быть ещё что, тут уже не узнаешь.

А вот с синком — да, жесть. и ладно бы всё сразу, но нет возможности указать с какой скоростью это делать.

k0ldbl00d Dec 24 2012 at 09:57

Стоимость аппаратных контроллеров переоценена. Во-первых, их себестоимость сегодня должна быть значительно ниже, чем была когда-то. Во-вторых, без аппаратных контроллеров было бы сложно обойтись на очень старых машинах, где программный raid становится довольно внушительной нагрузкой на ресурсы. Но сегодня, когда есть многоядерные Xeon, такие операции «теряются» из виду.

amarao Dec 24 2012 at 10:10

Для понимания: старые машины — это примерно до 2007 года производства. То есть на сервере 2002 года аппаратный рейд — да, актуальная штука. На сервере 2009… ну и нафига он там сдался?

KorP Dec 24 2012 at 10:17

Вот лично мне было бы интересно почитать о плюсах и минусах софт-рейд под линуксом в сравнении в аппаратным контроллером. хочу хорошую статью по mdadm :)))

UFO just landed and posted this here

KorP Dec 24 2012 at 10:36

Коротко — не интересно :))

amarao Dec 24 2012 at 11:20

Могу сказать только одно: практически все крупные вендоры СХД не используют аппаратные рейды. И чем крупнее решение — тем реже там есть хоть какие-то признаки куцего интеллекта между диском и реальным мозгом.

Минусы у mdadm'а я уже назвал — это возможная bus saturation и оверхед по процессору.

В плюсах у проприентарщины — wb кеш, возможно, алгоритмы кеширования на ssd. Но вот кто быстрее работает — их проприентарщина или опенсорсные решения — это ещё мерять надо.

-2

KorP Dec 24 2012 at 11:22

А вот было бы действительно интересно сравнить производительность.

NickyX3 Dec 24 2012 at 11:44

В этом каменте я как раз написал, что wb-кеш и проприетарщина крупными вендорами решается тоже на обычных процессорах, но со своим встроенным софтом и по сути чем дальше, тем больше «хардверные» рейды превращаются «софтовые» с точки зрения логиги их строения.

UFO just landed and posted this here

minnus Dec 24 2012 at 15:50

Позвольте спросить — а каких именно вендоров СХД и их крупные решения Вы имеете ввиду?

amarao Dec 24 2012 at 17:58

EMC, Netapp, TotalStorage.

-1

minnus Dec 24 2012 at 18:41

Ну, вы забыли таких крупных игроков, как Hitachi и HP :)

В EMC VMAX на бэкендах стоят чипы Tachyon. Да и обработка операций расчета дисковой четности (как и прочих низкоуровневых операций) на CPU общего назначения в данном случае не делает рейд более софтверным.
NetApp — неудачный пример хотя бы потому, что а) NetApp не играет на рынке hi-end систем (по настоящему hi-end, где играет EMC и Hitachi) б) это больше софверный вендор, и вся их архитектура -это только софт.
TotalStorage -имеется ввиду IBM? Если да, то там архитектура решений в портфолио очень сильно отличается в зависимости от модели.

amarao Dec 24 2012 at 19:31

У HP я только lefthand'ы видел, так что на top не претендую. А хитач я ни в каком виде не видел. Увы.

minnus Dec 25 2012 at 10:35

Ну в общем ситуация такова, что считать софтверным рейдом в СХД и как всю совокупность операций с дисковой подсистемой рассматривать. Да, в EMC VNX операции расчета четности и т.д. происходят на общих CPU в Engine, но при этом часть ядер выделена для операций front-end, а другая работает с блоками данных и самим ПО, которое обеспечивает тот или иной функционал. При этом ASIC-и тоже присутствуют для функционала RapidIO — в коммутаторах, которые обеспечивают связь engine-ов между собой.
В Hitachi — матричная архитектура и отдельные ASIC для операций ввода-вывода, этакая tru hardware реализация.
А у NetApp совершенно наоборот — это, пожалуй, единственный вендор, который создал tru software реализацию взаимодействия всех подсистем в СХД. В частности, RAID-DP оперирует не блоками, как мы привыкли, а сегментами файловой системы WAFL.

xdemon Dec 24 2012 at 10:28

у ESXi, например, нет софтрейда. Хотя в нем можно сделать storage-in-vm при наличии ресурсов.

foxmuldercp Dec 25 2012 at 21:57

Простите, а начерта мне в ESXi софт рейд?
1 вариант — я это отдаю на аппаратный рейд самого блейда — вылетел винт, я получил алерт, пнул HD, HD пошел воткнул новый винт взамен.
2 вариант — я цепляюсь по iSCSI/FC/Оптике к SAN/NAS, где живут виртуалки, дальше так же как в пункте выше.
мне в принципе даже винты в блейде не сильно нужны, если бутать ESX с флешки либо же по iSCSI, если биос машины умеет, хотя этот вариант я не тестил, честно

UFO just landed and posted this here

foxmuldercp Dec 25 2012 at 22:51

только ESX флешки больше двух гигов не видит, вроде как.
была такая проблема, на прошлой работе, поэтому нашли и купили флешек штук 20, специально 2гб

UFO just landed and posted this here

JDima Dec 26 2012 at 10:41

Глупый вопрос: а если создать раздел на 2гб, а остальное не размечать? Или он вообще не видит флешки большего размера?

navion Dec 26 2012 at 11:01

Он сам их размечает при установке, надо посмотреть какого размера будет создан раздел на 16 гиговой флешке. Подозреваю, что больше 2 ГБ не займёт.

JDima Dec 26 2012 at 11:04

Ну тогда и черт с ним. Все равно ESX больше не понадобится. Учитывая порядок цен на флешки нормальных производителей, что 2гб, что 16гб — по деньгам одинаково, и совершенно ничтожно по сравнению с ценой лезвия, в которое она будет воткнута.

UFO just landed and posted this here

navion Dec 26 2012 at 14:35

Зато там SLC!

UFO just landed and posted this here

navion Dec 26 2012 at 15:04

На флешках и сд-карта, даже откопал ссылку про это:
h30507.www3.hp.com/t5/Eye-on-Blades-Blog-Trends-in/SLC-Flash-and-USB-Keys-for-Integrated-Hypervisors/ba-p/80813

UFO just landed and posted this here

merlin-vrn Dec 26 2012 at 21:46

А зачем там флешки больше 2 Гб? Ну и пусть, esxу хватит, а виртуалки и так на сторадже.

Или я что-то не понял?

xdemon Dec 26 2012 at 11:24

А если у меня один-два сервера без СХД и это мой личный сервер? Нет, я понимаю, ссзб, но мне действительно нравится ESXi как гипервизор даже в его free-редакции. Консоли и VNC вполне хватает для всех задач (именно гипервизора). И если hetzner еще позволяет воткнуть raid за определенные $, то вот с ovh вроде как никак.

UFO just landed and posted this here

Merlyel Dec 26 2012 at 12:31

Винт сдох -> esxi сдох -> виртуалка сдохла.
Никакой софт-рейд внутри виртуалки не поможет после этого.
PS. Не путайте в названиях esx и esxi — это разные вещи
PPS. Кстати, старые esx — это надстройка над Linux, там софтварные рейды не поддерживались? :)

UFO just landed and posted this here

Merlyel Dec 26 2012 at 12:35

А если у меня один-два сервера без СХД и это мой личный сервер?

Делать shared storage на iSCSI, на котором и размещать образы вирт.машин? Вроде не сложно должно быть.

UFO just landed and posted this here

navion Dec 26 2012 at 14:37

У Нетапа нету, есть только тормозное нечто для хранения реплики снепшотов с нормальной СХД.

Merlyel Dec 26 2012 at 16:59

это официально поддерживаемое решение

VMware местами вообще жжот. Рекомендовать поднимать vCenter на виртуалке, имхо практически самоубийство. Есть конечто FT, но он, вроде бы, не во всех лицензиях, да и позволял до недавнего времени только 1 ядро (не в курсе, как сейчас).

UFO just landed and posted this here

foxmuldercp Dec 26 2012 at 17:14

Я тоже проблемы не вижу. два вцентра прекрасно работают в режиме поддержки друг друга, в случае чего с первым — подключаемся ко второму вцентру.

Merlyel Dec 26 2012 at 17:44

Опять же, господа инструкторы утверждали, что esxi можно регистрировать одновременно только на одном vCenter. Если это не так, то опять же — прекрасно :)
А если Вы про vCenter Heartbeat, то насколько я знаю, он опять же платный

foxmuldercp Dec 26 2012 at 17:53

dns/ip балансировку на вцентрах никто не отменял, в хартбите насколько я помню из описания на вцентрах конфигурация полностью дублируется.

navion Dec 26 2012 at 17:27

Возможно вы не в курсе, но HA работает и без vCenter.
В случае его падения у вас пропадёт возможно управлять ВМ через единую консоль, но если vCenter запущен в высокодоступной ВМ, то он будет перезапущен на живой ноде и эта возможность вернётся. Впрочем, включать lockdown mode при таком сценарии не стоит :)

Merlyel Dec 26 2012 at 17:42

Вот на курсах инструкторы утверждали, что и FT, и HA не работают без vCenter. Если HA работает без него, то да, проблем меньше. Ну про lockdown mode сами написали :)

navion Dec 26 2012 at 18:59

Про FT не помню, HA точно работает через агенты на хостах и не зависит от доступности vCenter.

Merlyel Dec 26 2012 at 20:15

Хм. Честно говоря не совсем понимаю, как HA без vCenter работает. Да и агент ставится только через vCenter, когда включаешь HA на кластере.
Что-то я сомневаюсь, что esxi общаются друг с другом — они вообще друг про друга могут и не знать, если вдруг стоят в разных сетях.

navion Dec 26 2012 at 21:19

Вам стоит почитать документацию, там всё есть:
pubs.vmware.com/vsphere-51/topic/com.vmware.vsphere.avail.doc/GUID-33A65FF7-DA22-4DC5-8B18-5A7F97CCA536.html

Merlyel Dec 26 2012 at 21:50

Мне уже не стОит, я несколько отошел от администрирования vSphere. Но вот соратникам подкину идею проверить, как все работает без vCenter

UFO just landed and posted this here

Merlyel Dec 26 2012 at 21:49

Ну что ж, подтверждение фразы — «послушай инструктора, а потом почитай документацию, узнай, как все на самом деле» :)

UFO just landed and posted this here

JDima Dec 26 2012 at 22:17

Это как называется курс по штуке евро в день?
Не, у меня коллега как-то катался в забугорье обучаться одной довольно специфической системе… Но чтобы VMWare…
Или речь про индивидуальные занятия с выездом инструктора?

UFO just landed and posted this here

navion Dec 26 2012 at 22:51

Там и зарплаты соответствуют, а по сравнение с ценой сториджа это копейки.

UFO just landed and posted this here

navion Dec 26 2012 at 23:03

Узнаете, когда откинетесь :) Совсем недавно видел вакансию админа хайэнд сториджей с зарплатой в 200 или 250 штук.

navion Dec 26 2012 at 22:26

Мошкова не трогать, вот у него можно и нужно учиться по VMware.

UFO just landed and posted this here

xdemon Dec 27 2012 at 16:07

Да, есть такой вариант. Но это не очень надежно или будет мало места. Объясню.
Есть, предположим, пара серверов 1U с четырьмя хотсвапными HDD. ESXi на флешке. Чтобы сделать виртуалку с, например, солярой (ZFS), ну или просто линухом (тогда можно сделать HA через тот же DRBD), ESXi надо отдать один из дисков. А чтобы виртуалка не умерла случайно — надо отдать уже два диска и поднимать там mdraid. Остается всего пара дисков для непосредственно сторажда, 4 ТБ максимум. Внутри уже да, поднимается iSCSI/NFS, по предпочтениям — и этот сторадж маппится на ESXi. Делается довольно просто. У меня была идея сделать такой сервачок дома (американцы с того же hardforum такие схемы любят и называют это, кажется, whitebox — когда все в одной физической ноде). Но как я уже говорил, стораджа становится сильно меньше, нет кэша (в случае с ZFS — совсем плохо), и воткнуть его тупо некуда (Хотя есть варианты со всякими PCIe SSD, те же RevoDrive. В итоге думал поставить storage VM на пару SATA DOM модулей как один из вариантов обхода ограничений файлопомойки, но в итоге передумал и раскидал сторадж и лабу на отдельные машины, благо есть возможность.

UFO just landed and posted this here

xdemon Dec 27 2012 at 18:45

у меня идея была отдать диски специализированной NAS-оси, типа нексенты. Небольшое недопонимание с моей стороны, да.
А 4 ТБ — да те же offsite-бэкапы инкрементальные.

ComodoHacker Dec 24 2012 at 11:30

Начиная с некоторого уровня требований к СХД, выбора уже не остается.

amarao Dec 24 2012 at 11:32

Начиная с определённого уровня требований это вообще перестаёт быть головной болью администратора, а вендоры обычно имеют свои HBA с очень перепиленными под себя прошивками.

ComodoHacker Dec 24 2012 at 13:13

Что перестает, сохранность данных? :)

amarao Dec 24 2012 at 15:31

Выбор «софтовый или хардварный рейд» перестаёт быть вопросом.

UFO just landed and posted this here

amarao Dec 24 2012 at 15:33

Просто для информации — именно адаптек нам однажды wb-кеш про… л. Не смотря на конденсатор и заверения о том, какое оно надёжное.

alexander007 Dec 24 2012 at 09:52

Спасибо. Вопрос к автору: можно ли восстановить данные с RAID при помощи R-Studio или другой тулзой при условии, что использовался аппаратный RAID контроллер и после его смерти диски были подключены к рабочей станции для восстановления? Воде бы в R-Studio есть такой режим. Если есть возможность поэкспериментируйте и расскажите о результатах.
И еще вопрос. Собираюсь прикупить RAID контроллер для linux сервера. Остановился на Adaptec RAID 6805E. Как у него организован RAID1? При выходе из строя контроллера я смогу снять данные без др. такого же контроллера? Существуют ли какие-нибудь утилиты у производителей для съема данных с винтов после смерти контроллера?

KorP Dec 24 2012 at 10:14

Конкретно про R-Studio сказать ничего не могу, я как то не сталкивался с восстановлением данных под виндой. Всё ещё зависит от того какой уровень RAID`а у вас поднят.
Не совсем понял вопроса на тему адаптека, RAID1 там организован так же как и у других контроллеров — зеркалирование, т.е. в случае поломки контроллера, вы можете подключить один из дисков и вытащить информацию. Утилиты для снятия данных с винтов от производителей никогда не встречал и думаю что их никто и никогда не делал.

RussianNeuroMancer Dec 24 2012 at 10:52

> Конкретно про R-Studio сказать ничего не могу, я как то не сталкивался с восстановлением данных под виндой.
Так оно не win-only: www.r-tt.com/ru/data_recovery_linux.

alexander007 Dec 24 2012 at 11:58

Про организацию RAID1. Имел ввиду то где хранится на винтах информация о RAID (в начале или в конце). Если в конце, то обычно проблем не бывает, подтыкаешь к любому компу и все ок. А если она будет в начале? что тогда? Искать нужный адрес и монтировать с указанием смещения? И вообще как дела обстоят у других контроллеров в данном вопросе с RAID1. Я юзал встроенные в материнские платы LSI и Intel (fake raid) контроллеры. У них проблем с чтением RAID1 на другом контроллере не было, однако они мне не понравились.

UFO just landed and posted this here

Merlyel Dec 25 2012 at 18:09

А тут на хабре как-то была статья, как вытаскивали данные с полудохлого RAID5, вот только не помню, софтварного или хардварного.

ComputerPers Dec 24 2012 at 10:49

Умер RAID встроенный на HP — меняйте мать по гарантии.

-1

Alukardd Dec 24 2012 at 10:53

Ну да, а вот этот момент данные с винтов лежат ждут, а юзеры негодуют. Бэкап ночной ни кому в такой ситуации не сдался, когда актуальные данные всё же имеются, просто ждут месяц по гарантии новую мать.

navion Dec 24 2012 at 10:56

Купите Care Pack с гарантированным временем восстановления, хотя и по обычной гарантии меняют в течении недели.

NickyX3 Dec 24 2012 at 11:05

CarePack 27x7 с временем восстановления в течение 6 часов рулит, нас был случай когда сдохший в час ночи P800 заменили уже в 4 утра

sht0rm13 Dec 24 2012 at 12:40

27х7 это какая планета?

NickyX3 Dec 24 2012 at 12:42

Опечатка это. 24х7 конечно же

navion Dec 24 2012 at 12:44

Меня в этом смущает только одно — кто-то должен принять запчать или инженера в 4 утра :)

NickyX3 Dec 24 2012 at 12:47

Что смущает? Принимает инженера и запчасть собственно сотрудник инициировавший тикет в HP. К примеру админ в супорте которого этот сервер. В нашем случае инженер HP еще и поднял с постели работника склада DHL, на котором лежала новая запчасть

Iliapan Dec 24 2012 at 14:13

Склад DHL Supply Chain в Пушкино работает круглосуточно :)

NickyX3 Dec 24 2012 at 14:14

В Екатеринбурге в тот момент он вообще непонятно как работал :-)

tzong Dec 24 2012 at 11:01

Отсутствие доступа к данным, простой предприятия — это всё не технические проблемы. Если предприятию не дороги данные, то и восстановиться с бэкапа не проблема. Если дорога каждая транзакция, то и решение должно быть построено так, чтобы ни одной транзакции не утекло мимо.

foxmuldercp Dec 25 2012 at 22:01

Кстати соглашусь. если руководство жлобится купить тот же нещастный новый рейд контроллер и положить его на полочку в холодный резерв, то это не проблемы ни ХД, ни администратора. Вот ИТ менеджера — да, это его обязанность, обьяснить не технически подкованному руководству, что будет, если эти сраные 100-200 баксов не выделят на новый рейд контроллер

UFO just landed and posted this here

navion Dec 25 2012 at 15:37

Выходит, что у HP начиная с DL360 G5 стоят контроллеры PMC и обеспечивается обратная совместимость вплоть до G7, верно?
IBM только с x3550 M3 перешел на LSI, до этого были MRxx (Adaptec) и M5000 (LSI).

А кто производитель контроллеров для Dell?

UFO just landed and posted this here

merlin-vrn Dec 25 2012 at 16:14

Есть у меня старый Dell с впаяным Adaptec-овским чипом (кажется, 2650 или 1750)

UFO just landed and posted this here

alexzeynikov Feb 12 2013 at 21:44

Года три как всех потерял. И был продан. Есть контроллеры у HP от PMC (но без Adaptec вроде).

alexzeynikov Feb 12 2013 at 21:43

В предыдущем и текущем поколении это LSI (2108, теперь 2208).

merlin-vrn Dec 25 2012 at 16:27

Интересно, а где хотя бы упоминание организации SNIA (в состав входят HP, LSI, Dell, IBM, Seagate, Hitachi и т. д.), где слова об их стандартном дисковом формате DDF? Его использует множество современных контроллеров, как аппаратных, так и fake, а также понимает Linux mdraid (наряду с intel matrix storage manager и своим собственным форматом метаданных).

Неоднократно у меня было такое, например, что грузишь линукс на fake-raid железке — а он видит его как свой linux software raid с ddf-метаданными и всё отлично работает. Только ресинк начинает.

minnus Dec 26 2012 at 09:00

Во, вот это правильное кун-фу :)
Дело тут не столько в самом стандарте DDF и прочих, которые утверждает SNIA, а в том, что у нас в стране почему-то об этой организации вообще мало знают.
Вплоть до парадокса — я имею по сути высшую сертификацию SNIA (Которая Architect, нужно им выслать документы, чтобы Expert получить), но когда я говорю об этом людям в заказчиках и партнерах, которые плотно работают с СХД — вижу круглые глаза. Приходится объяснять, откуда на самом деле берутся утвержденные стандарты в области хранения данных :)

UFO just landed and posted this here

minnus Dec 26 2012 at 09:55

Ну вообще, конечно, знание некоторых принципов компенсирует незнание некоторых фактов. :)
Однако, на текущий момент ИТ сфера развивается настолько быстро, что мало кто может в принципе уследить за новыми стандартами в области или новыми версиями оных. И в большинстве случаев знания по поводу совместимости того или иного решения проще получить эмпирически.
Так что знание стандартов отрасли играет первостепенную роль именно при разработке архитектур для в некоей степени абстрактных решений, т.е. при разработке самой концепции той или иной системы. Все равно на этапе тестирования и внедрения важен в первую очередь эмпирический опыт.

UFO just landed and posted this here