Pull to refresh

Comments 167

В общем мой вам совет: если это не СХД, а RAID в самом сервере, например под ОСь, то используйте программный RAID (mdadm, ZFS и т.д.).
Абсолютно правильный совет.

Но если уж нужна железка (а выигрыш при 8+ дисках гигантский), то:
1. брать нужно стандартную, желательно одну из наиболее распространенных;
2. если на две денег нет, то иметь в планах прикупить примерно через один гарантийный срок такую же или поновее, но обязательно той же серии и от того же производителя;
3. не использовать сложные рейды (raid5, raid6), а только простые, т.е. raid1 или raid10.
А в чём выигрыш железного раида (кроме write cache и батарейки)?
Загрузочный диск сдохнет — узнаете.
Лучше молчать, чем так отвечать.
На софтраиде сдыхал загрузочный диск и ничего, загрузился со второго.
Ну-ну. Ножками (в лучшем случае через KVM) подошли и переставили загрузочное устройство? Молодец. Что, само со второго загрузилось? Так если диск сдохнет не полностью, и система будет пытаться грузиться с него, а не со второго, кто будет отвечать за простой?
Так что лучше вам действительно молчать, раз не понимаете о чём говорите.

Да, загрузилось само.
Да есть kvm на всякий случай.
Сервисы всё продублированы, никакого простоя не будет.
Ещё раз:
на первом (загрузочном) диске появился сбойный сектор в области загрузчика либо данных, препятствующий корректной загрузке ОС, как ваша замечательная система определит что надо грузиться со второго диска?

>>Сервисы всё продублированы, никакого простоя не будет.
О да, конечно.
В биосе порядок загрузки выставил, не смог первый пункт — пробует второй, не смог второй — пробует третий. Загрузочный сектор есть на каждом из них, система способна стартовать с любого диска.

Я вообще не понимаю, в чём проблема тут. Сто лет в обед так делаю, всё штатно.

P.S. Кроме того, жёсткие диски крайне редко выходят из строя во время простоя машины. Всегда если диск сдох — это внезапное для ОС событие во время работы сервера. Ну, тут он спокойно меняется на горячую, потому как AHCI.
1. Не использовать аппаратный рейд для хранения данных.
2. Не использовать аппаратный рейд для хранения данных.

99. Не использовать аппаратный рейд для хранения данных.

linux-raid куда функциональнее любого хардварного решения, плюс нет никаких проблем с тем, чтобы увидеть диски на другой машине или HBA.
linux-raid проц не жрёт? особенно на каком-нибудь raid5/6, а не на тупых 0/1.
Ну у не всегда sata-гнезд на материнке хватает на все диски.
Любой рейд-контроллер может быть превращён в тупой HBA. Адаптек при этом там свои мета-данные всё-таки оставит, а LSI станет настоящим HBA.

Проц, который «жрёт» raid5/6 обычно не ощутим на фоне тех лагов, которые с собой приносят 5/6 рейд из-за пенальти по записи. В реальности большинство применений raid — 10ый или первый, и там linux-raid уделывает большинство аппаратных решений.

Вообще, все рассуждения о «высокой нагрузке на CPU от raid5» относятся ко временам P1-P2, когда подарить 300-800МГц на дисковую подсистему было непозволительной роскошью.
> Любой рейд-контроллер может быть превращён в тупой HBA
Дык почему бы тогда не использовать возможности аппаратного рейда, если уже воткнули карту?
Софтовое решение быстрее?
Мне всегда казалось что хардварная карта производительнее, даже и не глядел в сторону linux-raid'a.
На основании чего вы считаете, что дохлый и тухлый процессор на рейде сможет показать производительность добротного процессора от intel? (thumb rule: у кого кулер круче, тот и быстрее).

У меня в тестах (я, правда, никогда 5-6 рейды в серьёз не воспринимал для продакта) linux-raid показывает более высокую производительность, чем LSI (mpt2sas) и adaptec (5-6 серии).

Есть единственный случай, когда аппаратный рейд обгоняет софтовый by-definition. Это когда HBA воткнут в мамку узкой шиной (например, PCI-E x4), а сам имеет много сосок до дисков. В этом случае в софтовом рейде можно огрести bus saturation. Но это а) проблема тухлого HBA б) в реальной жизни никого не волнует, ибо random io и latency значат больше, чем пропусная способность.

Есть ещё один случай, когда аппаратный рейд хорош — это wb режим кеша. Но

а) В этом случае уровень доверия программистам из жаркой Индии (я не шучу — посмотрите на фамилию мейнтейнера mpt2sas) должен быть запредельным — софт должен не только всё правильно делать, но и правильно обрабатывать неправильные ситуации с исчезновением питания. Я бы к этому отнёсся со скепсисом.… И у меня есть случай в практике, когда wb-кеш не был скинут после особо изощрённой аварии на бэкплейне (полке с дисками).
б) write-back ускоряет некоторые виды записи, но совсем не спасает от холодного чтения, которое, как всегда, оказывается сюрпризом.
На основании чего вы считаете, что дохлый и тухлый процессор на рейде сможет показать производительность добротного процессора от intel? (thumb rule: у кого кулер круче, тот и быстрее).

А с чего вы взяли, что он дохлый и тупой? ИМХО спец проц, пусть даже он и знаимеется только подсчетом контрольных сумм — должен быть быстрее процессоров общего назначения. Таже Intel не зря выпускает, к примеру, сетевушки с iSCSI «ускорителями» и TCP/OE
Не знаю с чего amarao взял, но в любом случае, есть смысл мерять.
Вопрос только, кто-то бы занялся грамотным тестированием, да опубликовал результаты.

Лично я (тоже умозрительно) склонен считать, что необходимость своего процессора на raid контроллере в текущий момент времени сильно преувеличена.
Насчет рейдов не скажу, возможно кстати в обычной работе софтовый рейд сравним с аппаратным, но ИМХО опять же — время ребилда на софтом рейде на загруженной машине будет дольше. По опыту TCP/OE на интелах сетевках разгружает процессор весьма и весьма
Ситуация «ребилд массива» — насколько частая? (опять-же, умозрительно) вроде не очень.
Есть ли возможность разгрузить машину, у которой возникла эта ситуация от другой нагрузки?
Там могут быть другие очень интересные моменты которые тоже есть смысл померить…

Например, производительность массива на аппаратном контролелре всеравно может проседать при ребилде, и это может сказаться на производительности системы в целом больше, чем более высока нагрузка на CPU при софтовом.
Насчет частоты. По нашему опыту обычные HP SAS MDL ENT 2.5" 72 Gb, 15k на серверах HP DL380G5 вылетают в среднем раз в 3-4 сесяца (учитывая что серверам уже 3-4 года это нормально). Ребилд одного такого диска на контроллере P400i занимает 10 минут примерно. Диски по 6 штук в RAID6. Деградаций по скорости не замечено
Ситуация «ребилд массива» — насколько частая? (опять-же, умозрительно) вроде не очень.

М…
57 0 * * 0 root [ -x /usr/share/mdadm/checkarray ] && [ $(date +\%d) -le 7 ] && /usr/share/mdadm/checkarray --cron --all --quiet


Ну в аппаратных рейдах есть еще всякие плюшки кроме производительности — как минимум surface scan дисков делается периодически, благодаря которому я знаю, что мне нужно сейчас на 36 дисков в дисковых полках 2 новых диска, т.к. два текущих работают, но могут сдохнуть. В софтварном рейде частично спасает SMARTS, частично вот эта запись в кроне. Но эта же запись нагружает и проц.
Конечно, у аппаратных штучек есть много всякого, вопрос в том, как эти все хорошие фишки влияют на итоговые «бизнес показатели». Там ведь всё очень нелинейно.

Я к тому, что по-хорошему, нужно это все считать, и находить свою точку баланса.

Но обычным людям считать либо лень, либо они просто плохо представляют себе методику, как чего делать, и какие показатели снимать, что именно важно в их ситуации.
Я думаю, вообще производители аппаратных рейдов и СХД ориентируются на очень большие компании, в которых системный администратор и администратор СХД — это совершенно разные люди (или даже отделы). И сисадмин просто говорит — мне нужно 200 гигов быстрого хранилища или 5 тер некритичного к скорости хранилища. Все.
В таком случае настраивать на парке из сотен серверов мдадм — да нафиг сисадму это нужно. Это работа администраторов СХД — вот пусть они и думают, как организовать скорость, надежность, отказоустойчивость, своевременную замену дисков и т.д. Пусть тестируют и хоть на NASах самодельных поднимают, все вопросы уже будут к ним. При этом пускать на сервер администраторов СХД сисадмы совсем не обязаны. Вот тут и появляется внешнее хранилище :)
Ну, пускать на сервер и доверять критические функции — не одно и то же.

Например, винда отлично умеет разделять права доступа. Ты имеешь права, скажем, на бекап, но не имеешь на управление пользователями.

Линукс тут похуже, но с костылями типа sudo тоже вполне можно сделать так, чтобы группа СХД не конфликтовала админами и не имела лишних прав.
Ну ребилд 6 рейда в софтварном рейде всегда у меня проходил быстрее на загруженном сервер по ip, чем на adaptec или areca.
Если бы контрольные суммы были единственным видом нагрузки — говорить бы не о чем было бы. latency сильно зависит от того, насколько процессор умеет быстро реагировать на запросы и ответы, оно же определяет максимальную производительность.

Почему я считаю, что рейдовые процессоры тупее центральных? Видимо, потому что если бы было иначе, то в роли центральных была та штука, что на рейде стоит.

Не надо путать оффлоадинг вычислений и функцию целиком. Условно говоря: если бы рейд просто предоставлял dataengine для быстрого рассчёта crc (и, что важнее, для быстрого реконструирования, например, double failed raid6) — вопросов бы не было. Но ведь он же и всё остальное делает.

Это как если бы intel в сетевую карту засунула веб-сервер. Догадайтесь, кто быстрее работать будет — добротная связка из haproxy/nginx (или даже kernel web server, для тонких ценителей), или же тот же веб-сервер, реализованный на хилом процессоре сетевухи?

Но интел умнее — у них только оффлоадинг того, что можно в плис запрограммировать. Считать crc, tcp там (в ограниченных объёмах) собирать — это да. А вот заниматься более интеллектуальными вещами — лучше это оставить для более интеллектуальных систем.
Но ведь он же и всё остальное делает

И что же он там такое делает? Обеспечение работы дисков и логики самого массива думается процентов 10 занимает у них, остальное это числодробильня.
Вообще ситуация забавная с рейдами в данный момент. Куча производителей для рейдов использует как раз таки процессоры общего назначения. Xyratex/IBM в своих СХД (у меня вот к примеру Xyratex E5412 Direct Attached SAS) использует на контроллерах Intel Celeron. Их хватает. Но опять же под спец софтом, а не под linux/etc.
Не надо путать оффлоадинг вычислений и функцию целиком. Условно говоря: если бы рейд просто предоставлял dataengine для быстрого рассчёта crc (и, что важнее, для быстрого реконструирования, например, double failed raid6) — вопросов бы не было. Но ведь он же и всё остальное делает.

Это как если бы intel в сетевую карту засунула веб-сервер. Догадайтесь, кто быстрее работать будет — добротная связка из haproxy/nginx (или даже kernel web server, для тонких ценителей), или же тот же веб-сервер, реализованный на хилом процессоре сетевухи?

Узкоспециализированная логика может оказаться быстрее процессора под любыми стероидами расширениями.
Логика в современных роутерах позволяет прокачивать через себя сотни гигабит или терабиты трафика с обработкой каждого пакета на L4 (а это уже серьезно). Некоторые — с задержкой от момента начала вхождения пакета в порт до момента начала выхода пакета из порта в пару сотен наносекунд. Обычный IPoE трафик.
Есть аппаратные системы, способные полностью прогрузить относительно реальными данными такие платформы, анализируя микросекунды задержек и миллисекунды пропадания связи. Spirent Testcenter к примеру.

Есть и более простые примеры. До недавнего времени, пока не появились расширения AES-NI, современные ЦП могли шифровать лишь жалкие сотни мегабит в секунду. А что такое AES-NI? Фактически тот же специализированный акселератор, размещенный на одном кристалле с остальной логикой.

Так что (не конкретно про хранилища, а в целом) заточенная логика бьет универсальную. Только она дороже.
UFO just landed and posted this here
На самом деле, переделывать ASICи требуется довольно редко. Вот логику, которая их программирует, чаще, но она обычно крутится на тех самых универсальных чипах (в случае многотерабитных роутеров — нередко на самых обычных 4-ядерных ксеонах) и легко поддается перепрошивке.
На SCSI шине нет «заточенной логики». Там очень высокоуровневый протокол с большим количеством вариантов поведения.

Кроме того, там внутрях всё равно маленький дистрибутив (линукс или нет — не скажу), который исполняется не в виде программы для плиса, а как обычная программа для универсального процессора.
На SCSI шине нет «заточенной логики».

www.altera.com/literature/wp/wp-01093-arria-iv-gx-sata-sas.pdf в качестве простейшего примера.
там внутрях всё равно маленький дистрибутив (линукс или нет — не скажу), который исполняется не в виде программы для плиса, а как обычная программа для универсального процессора.

У хардварных роутерных платформ то же самое. Протоколами control plane ведает обычный процессор, иногда на нем тот самый линукс крутится. Но при этом ни один пакет с целевыми данными не проходит через процессор. Т.е. соседства OSPF и маршруты просчитываются обычным процессором, который только программирует специализированные чипы, отвечающие за передачу пакетов.
На основании чего вы считаете, что дохлый и тухлый процессор на рейде сможет показать производительность добротного процессора от intel? (thumb rule: у кого кулер круче, тот и быстрее).


На основании собственного опыта.
Не так давно, собирая для дома дисковый тазик, экспериментально выяснил, что на 8-ми дисках ZFS-ный RAIDZ2 (процессор i5-2400, памяти 8Gb, диски подключены к Adaptec 5805 как JBOD) банально медленнее адаптечного RAID6 с теми же дисками.
На моем личном паттерне — чтение-запись больших файлов в один поток (дисковый тазик — для работы с фото и кино).
Ну как бы ZFS это больше чем RAID, в придачу вы получаете дедупликацию, и систему снапшотов. Все эти плюшки образуют некоторые накладные расходы.
И всё равно, разница не должна быть настолько заметна, что бы говорить «банально медленнее».
Дедупликация была выключена, ZIL — по умолчанию, т.е. только для синхронной записи.

А разница — эдак раза в полтора. ~700-750Mb/sec для RAID6 и файловой системы поверх (UFS. Ext4, NTFS) и меньше 500 для ZFS
Но без write-back жизнь грустна и печальна.

Всё-таки двухкратный и более прирост в iometer — серьёзный довод, чтобы поставить аппаратный raid-контроллер с BBU.
Нет ничего более лукавого, чем показатели iometer и других тестов. wb позволяет заменить random write более крупными кусками write, выполняемого реже. И только.

Холодное чтение всё это кеширование сносит только так.

wb и прочее кеширование позволяет слегка повысить оптимальный метод эксплуатации, но при проектировании надо закладывать число шпинделей по пессимистичному варианту, когда всё IO в холодном чтении. Для него выставляется минимально-терпимые показатели и именно они используются для рассчёта системы.

А дальше кеши любого уровня лишь повышают качество сервиса с минимально-терпимого до хорошего и отличного.

Но вот обратный метод проектирования неправильный. Нельзя сказать «раз 4 шпинделя с wb показывают себя отлично, значит и в тяжёлом случае оно справится». Точнее, сказать можно, а вот работать не будет.
Попробую замучать вопросами :)

Холодное чтение — подразумевается чтение данных отсутствующих в кеше? Потому что гугл только про приёмы медиумов рассказывает.

А на какой показатель смотреть при выборе количества шпиндилей?

У меня небольшой опыт использования mdadm и виндового рейда. В основном делали Raid 1 и Raid 10 из 2-4-6 дисков. Но тот что был — показывал, что в случае необходимости перестройки массива, работа фактически парализовалась. В случае использования аппаратных контроллеров ребилд незначительно влиял на производительность дисковой подсистемы, и работать можно было. Может есть какие-то твики, позволяющие понизить приоритетность перестройки массива?
Холодное чтение — это чтение, которое гарантированно вытесняется из кеша между обращениями. То есть за каждым запросом нужно идти и читать с самого низкого уровня — с носителя.

Если с записью можно мухлевать, отвечая «угу, записал» (на самом деле положив в память), то с холодным чтением мухлевать не получится. Нельзя сказать «угу, прочитал» не отдав то, что прочитал. То есть каждая миллисекунда задержки — прямое увеличение latency.

Сами шпиндели определяются очень просто: число iops в худшем случае при заданной latency. Или latency при заданном числе iops'ов.

Скорость ребилда рейда у linux-raid контролируется переменными max_speed/min_speed. Если задирать min_speed, будет очень плохо для полезной нагрузки. Ни программный, ни аппаратный рейды не заставят диск читать/писать больше, чем он может.
Благодарю за ответы, познавательно.

Буду пробовать. Возможно мои предпочтения качнутся назад к soft-raid.
В свое время тестили адаптеки, lsi и promise контроллеры в шестом рейде против линуксового софтварного, линуксовый победил на крупных файлах и большом количестве параллельных чтений.
linux-raid — понятно, а что для виндовых решений? (только без холивара)
Для системного диска, вроде как, ни чего, а для диска с данными винда сама умеет raid 0/1.
Системные тоже умеет. Там даже у бутлоадера появляется опция «грузиться с соседа».
Винда сама прописывает, если загрузка с dynamic disks, которые включены в raid1. (ощущаю себя очень странно, рассказывая как работает винда).
В тот целый один раз, когда я это делал, оно «само» не заработало — не загрузилось со второго диска при отсутствии первого. Даже не начало грузиться, явно не было загрузчика.
Оно не ставит загрузчик (наверное, это можно сделать, я не смотрел как), т.к. raid mirror для dynamic disks резервирует не диск целиком, а только выбранные разделы.

Я говорил про то, что в меню у загрузчика появляется пункт меню «boot from plex» (речь про то, откуда читать системные файлы). Думаю, что скопировав загрузочный сектор, можно будет добиться загрузки и со второго диска.
Не записался бут сектор и или загрзучик. Бывает в некоторых случаях.
raid 0, raid 1 умеет, а raid 1+0 не умеет
Последний раз, когда я видел винды, они умели софтовый рейд. Даже для загрузочного диска. Более того, в мою админскую юность у меня были сервера на софтовом рейде с виндами.

Впрочем, как и многие другие удачные решения майкрософт, софтовый рейд в виндах приложил все мыслимые и немыслимые усилия для того, чтобы с диска с одного сервера на другом не загрузиться.
ну на самом деле, на другом сервере не загрузится точно по такой же причине, что и в статье где kernel panic — нет драйвера, на идентичном железе или при наличии драйвера — загрузится.

вот только рейд10 винда не умеет всё-таки, это плохо.
(со скрипом впоминаю виндузятное детство) нет, там проблема не в драйверах HBA, а в том, что винда особым образом различает «свои» и «чужие» dynamic-диски, и просто так с чужими дисками работать отказывается (их надо явно импортировать). Причём если диск импортнуть на соседней машине (чтобы проверить на месте ли данные), то после этого загрузиться с такого диска уже не получится (т.к. диск надо «импортировать», а импортировать диск с которого грузиться невозможно, ибо интерфейс ещё не загружен).

Возможно я какие-то детали путаю, но общий вердикт: буэ.
Про kernel panic в статья, я, кстати, вообще не понял. С чего бы ей случиться? Если загрузчик смог найти и загрузить initramfs, то дальше, если предположить, что initramfs не смогла подцепить раздел с корнем в виду проблем с драйвером raid'а, она должна была по возмущаться и оставить нас наедине с busybox. Если же управление было таки передано ядру, то ни каких проблем дальше быть уже не должно было. Если косяк случился в момент попытки того же grub'а найти /boot раздел, то там ни каким kernel'ом ещё и не пахнет.
Подозреваю, что потому же, почему и образ системы с IBMмного сервера не завелся сразу на HPшном. У нас initrd сказал — «мне сказали загрузить модуль aacraid, а я не могу, т.к. не вижу ничего тако...». Пришлось загрузиться с лайва, убрать из initrd aacraid и добавить cciss.
Правда это было на RH4. Возможно, автор тоже пробовал на старом дистре?
Хотя что-то типа RH4 на G7…
Как просто чинится, верно?

А на винде — хрен сделаешь.
Активно использовали soft-raid в Win2003, Win2008, R2. Чуть больше десятка терминальных серверов на сравнительно небольшое количество пользователей. Использовали только Raid1.

Основные проблемы — массив разваливается от дуновения ветра. Штатная перезагрузка после установки обновления — ребилд. Внезапно повысилась нагрузка на диск — ребилд. Для полноты картины ребилд проводится не как в mdadm, а одновременно для всех разделов, и из-за этого время перестройки массива растёт экспоненциально.

В большинстве случаев отказались в пользу Intel Matrix Storage, в особо запущенных ставили аппаратный raid контроллер с BBU. Игорь Романовский в своём блоге объяснял проблемы подробнее.

Может в 2012 сервере всё стало лучше, но пока не пробовали.
UFO just landed and posted this here
В линуксе бывает прикольнее. Начался ребилд, дошёл до 95% и хопа — диск, на который всё копировалось, в hsp. Минут через десять снова начинается.

Выяснилось, что диск с единственной живой репликой, с которого всё копировалось, сам стал подыхать, и именно вот так, тихо и незаметно, madam реагировал на это: вместо воплей в dmesg — просто останов ребилда при ошибке чтения.

Нет-нет, вы не переживайте, всё живо и простой 0 секунд. В линуксе можно и не такое починить без останова сервера.
UFO just landed and posted this here
>>массив разваливается от дуновения ветра
батенька, да у вас диски и контроллер говно были, а вполне возможно что и PSU.
На десятке разных серверов — как-то не верится. Да и переход на Intel-овский fake-raid помог всем.
Зависит от того, из чего вы все эти «сервера» собирали.

По моему опыту — была пара машин на десктопных комплектующих, которые чаще, чем другие сваливались в ребилд, но это было раз в пол-года по большим праздникам, обычно же причиной ребилда было обычное некорректное завершение работы в связи с полным и тотальным пропаданием питания в розетке =)

Вообще, автоматический ребилд у vds может быть вызван только по одной причине, несовпадение magic number на дисках, что, в свою очередь, может быть только в одном случае — при вырубании питания (в т.ч. при перезагрузке при установке апдейта) диск не успевает дописать последние данные.
В моей практике была одна машина, которая стабильно, со 100% вероятностью, при штатном выключении на следующем запуске падала в БСОД из за некорректных данных, при этом можно было спокойно reset жать прямо во время работы и всё было нормально. В данном конкретном случае вырубил кеш на запись и всё стало нормально, сильно подозреваю что в вашем случае это тоже могло бы помочь.

ЗЫ Матрикс сторадж, кстати, не панацея, были и с ним проблемы, но это отдельный разговор =)
Да если бы десктопное. Постарше — на S3420, поновее на S1200. С появлением у интела такого бюджета смысла возиться с десктопами не вижу. Винты по бюджету заказчиков, но хуже чем саташные WD RE ставить не случалось.

Эх, и тут вырубать кэш на запись :)

Меня больше всего убивает желание системы синхронизировать все разделы сразу.
Ну самые дешевые интелы — тот ещё приколизм… Возможно дело в драйверах Интеля на ICH, может быть ещё что, тут уже не узнаешь.

А вот с синком — да, жесть. и ладно бы всё сразу, но нет возможности указать с какой скоростью это делать.
Стоимость аппаратных контроллеров переоценена. Во-первых, их себестоимость сегодня должна быть значительно ниже, чем была когда-то. Во-вторых, без аппаратных контроллеров было бы сложно обойтись на очень старых машинах, где программный raid становится довольно внушительной нагрузкой на ресурсы. Но сегодня, когда есть многоядерные Xeon, такие операции «теряются» из виду.
Для понимания: старые машины — это примерно до 2007 года производства. То есть на сервере 2002 года аппаратный рейд — да, актуальная штука. На сервере 2009… ну и нафига он там сдался?
Вот лично мне было бы интересно почитать о плюсах и минусах софт-рейд под линуксом в сравнении в аппаратным контроллером. хочу хорошую статью по mdadm :)))
UFO just landed and posted this here
Коротко — не интересно :))
Могу сказать только одно: практически все крупные вендоры СХД не используют аппаратные рейды. И чем крупнее решение — тем реже там есть хоть какие-то признаки куцего интеллекта между диском и реальным мозгом.

Минусы у mdadm'а я уже назвал — это возможная bus saturation и оверхед по процессору.

В плюсах у проприентарщины — wb кеш, возможно, алгоритмы кеширования на ssd. Но вот кто быстрее работает — их проприентарщина или опенсорсные решения — это ещё мерять надо.
А вот было бы действительно интересно сравнить производительность.
В этом каменте я как раз написал, что wb-кеш и проприетарщина крупными вендорами решается тоже на обычных процессорах, но со своим встроенным софтом и по сути чем дальше, тем больше «хардверные» рейды превращаются «софтовые» с точки зрения логиги их строения.
UFO just landed and posted this here
Позвольте спросить — а каких именно вендоров СХД и их крупные решения Вы имеете ввиду?
Ну, вы забыли таких крупных игроков, как Hitachi и HP :)

В EMC VMAX на бэкендах стоят чипы Tachyon. Да и обработка операций расчета дисковой четности (как и прочих низкоуровневых операций) на CPU общего назначения в данном случае не делает рейд более софтверным.
NetApp — неудачный пример хотя бы потому, что а) NetApp не играет на рынке hi-end систем (по настоящему hi-end, где играет EMC и Hitachi) б) это больше софверный вендор, и вся их архитектура -это только софт.
TotalStorage -имеется ввиду IBM? Если да, то там архитектура решений в портфолио очень сильно отличается в зависимости от модели.
У HP я только lefthand'ы видел, так что на top не претендую. А хитач я ни в каком виде не видел. Увы.
Ну в общем ситуация такова, что считать софтверным рейдом в СХД и как всю совокупность операций с дисковой подсистемой рассматривать. Да, в EMC VNX операции расчета четности и т.д. происходят на общих CPU в Engine, но при этом часть ядер выделена для операций front-end, а другая работает с блоками данных и самим ПО, которое обеспечивает тот или иной функционал. При этом ASIC-и тоже присутствуют для функционала RapidIO — в коммутаторах, которые обеспечивают связь engine-ов между собой.
В Hitachi — матричная архитектура и отдельные ASIC для операций ввода-вывода, этакая tru hardware реализация.
А у NetApp совершенно наоборот — это, пожалуй, единственный вендор, который создал tru software реализацию взаимодействия всех подсистем в СХД. В частности, RAID-DP оперирует не блоками, как мы привыкли, а сегментами файловой системы WAFL.
у ESXi, например, нет софтрейда. Хотя в нем можно сделать storage-in-vm при наличии ресурсов.
Простите, а начерта мне в ESXi софт рейд?
1 вариант — я это отдаю на аппаратный рейд самого блейда — вылетел винт, я получил алерт, пнул HD, HD пошел воткнул новый винт взамен.
2 вариант — я цепляюсь по iSCSI/FC/Оптике к SAN/NAS, где живут виртуалки, дальше так же как в пункте выше.
мне в принципе даже винты в блейде не сильно нужны, если бутать ESX с флешки либо же по iSCSI, если биос машины умеет, хотя этот вариант я не тестил, честно
UFO just landed and posted this here
только ESX флешки больше двух гигов не видит, вроде как.
была такая проблема, на прошлой работе, поэтому нашли и купили флешек штук 20, специально 2гб
UFO just landed and posted this here
Глупый вопрос: а если создать раздел на 2гб, а остальное не размечать? Или он вообще не видит флешки большего размера?
Он сам их размечает при установке, надо посмотреть какого размера будет создан раздел на 16 гиговой флешке. Подозреваю, что больше 2 ГБ не займёт.
Ну тогда и черт с ним. Все равно ESX больше не понадобится. Учитывая порядок цен на флешки нормальных производителей, что 2гб, что 16гб — по деньгам одинаково, и совершенно ничтожно по сравнению с ценой лезвия, в которое она будет воткнута.
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
А зачем там флешки больше 2 Гб? Ну и пусть, esxу хватит, а виртуалки и так на сторадже.

Или я что-то не понял?
А если у меня один-два сервера без СХД и это мой личный сервер? Нет, я понимаю, ссзб, но мне действительно нравится ESXi как гипервизор даже в его free-редакции. Консоли и VNC вполне хватает для всех задач (именно гипервизора). И если hetzner еще позволяет воткнуть raid за определенные $, то вот с ovh вроде как никак.
UFO just landed and posted this here
Винт сдох -> esxi сдох -> виртуалка сдохла.
Никакой софт-рейд внутри виртуалки не поможет после этого.
PS. Не путайте в названиях esx и esxi — это разные вещи
PPS. Кстати, старые esx — это надстройка над Linux, там софтварные рейды не поддерживались? :)
UFO just landed and posted this here
А если у меня один-два сервера без СХД и это мой личный сервер?

Делать shared storage на iSCSI, на котором и размещать образы вирт.машин? Вроде не сложно должно быть.
UFO just landed and posted this here
У Нетапа нету, есть только тормозное нечто для хранения реплики снепшотов с нормальной СХД.
это официально поддерживаемое решение

VMware местами вообще жжот. Рекомендовать поднимать vCenter на виртуалке, имхо практически самоубийство. Есть конечто FT, но он, вроде бы, не во всех лицензиях, да и позволял до недавнего времени только 1 ядро (не в курсе, как сейчас).
UFO just landed and posted this here
Я тоже проблемы не вижу. два вцентра прекрасно работают в режиме поддержки друг друга, в случае чего с первым — подключаемся ко второму вцентру.
Опять же, господа инструкторы утверждали, что esxi можно регистрировать одновременно только на одном vCenter. Если это не так, то опять же — прекрасно :)
А если Вы про vCenter Heartbeat, то насколько я знаю, он опять же платный
dns/ip балансировку на вцентрах никто не отменял, в хартбите насколько я помню из описания на вцентрах конфигурация полностью дублируется.
Возможно вы не в курсе, но HA работает и без vCenter.
В случае его падения у вас пропадёт возможно управлять ВМ через единую консоль, но если vCenter запущен в высокодоступной ВМ, то он будет перезапущен на живой ноде и эта возможность вернётся. Впрочем, включать lockdown mode при таком сценарии не стоит :)
Вот на курсах инструкторы утверждали, что и FT, и HA не работают без vCenter. Если HA работает без него, то да, проблем меньше. Ну про lockdown mode сами написали :)
Про FT не помню, HA точно работает через агенты на хостах и не зависит от доступности vCenter.
Хм. Честно говоря не совсем понимаю, как HA без vCenter работает. Да и агент ставится только через vCenter, когда включаешь HA на кластере.
Что-то я сомневаюсь, что esxi общаются друг с другом — они вообще друг про друга могут и не знать, если вдруг стоят в разных сетях.
Мне уже не стОит, я несколько отошел от администрирования vSphere. Но вот соратникам подкину идею проверить, как все работает без vCenter
UFO just landed and posted this here
Ну что ж, подтверждение фразы — «послушай инструктора, а потом почитай документацию, узнай, как все на самом деле» :)
UFO just landed and posted this here
Это как называется курс по штуке евро в день?
Не, у меня коллега как-то катался в забугорье обучаться одной довольно специфической системе… Но чтобы VMWare…
Или речь про индивидуальные занятия с выездом инструктора?
UFO just landed and posted this here
Там и зарплаты соответствуют, а по сравнение с ценой сториджа это копейки.
UFO just landed and posted this here
Узнаете, когда откинетесь :) Совсем недавно видел вакансию админа хайэнд сториджей с зарплатой в 200 или 250 штук.
Мошкова не трогать, вот у него можно и нужно учиться по VMware.
UFO just landed and posted this here
Да, есть такой вариант. Но это не очень надежно или будет мало места. Объясню.
Есть, предположим, пара серверов 1U с четырьмя хотсвапными HDD. ESXi на флешке. Чтобы сделать виртуалку с, например, солярой (ZFS), ну или просто линухом (тогда можно сделать HA через тот же DRBD), ESXi надо отдать один из дисков. А чтобы виртуалка не умерла случайно — надо отдать уже два диска и поднимать там mdraid. Остается всего пара дисков для непосредственно сторажда, 4 ТБ максимум. Внутри уже да, поднимается iSCSI/NFS, по предпочтениям — и этот сторадж маппится на ESXi. Делается довольно просто. У меня была идея сделать такой сервачок дома (американцы с того же hardforum такие схемы любят и называют это, кажется, whitebox — когда все в одной физической ноде). Но как я уже говорил, стораджа становится сильно меньше, нет кэша (в случае с ZFS — совсем плохо), и воткнуть его тупо некуда (Хотя есть варианты со всякими PCIe SSD, те же RevoDrive. В итоге думал поставить storage VM на пару SATA DOM модулей как один из вариантов обхода ограничений файлопомойки, но в итоге передумал и раскидал сторадж и лабу на отдельные машины, благо есть возможность.
UFO just landed and posted this here
у меня идея была отдать диски специализированной NAS-оси, типа нексенты. Небольшое недопонимание с моей стороны, да.
А 4 ТБ — да те же offsite-бэкапы инкрементальные.
Начиная с некоторого уровня требований к СХД, выбора уже не остается.
Начиная с определённого уровня требований это вообще перестаёт быть головной болью администратора, а вендоры обычно имеют свои HBA с очень перепиленными под себя прошивками.
Что перестает, сохранность данных? :)
Выбор «софтовый или хардварный рейд» перестаёт быть вопросом.
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
Просто для информации — именно адаптек нам однажды wb-кеш про… л. Не смотря на конденсатор и заверения о том, какое оно надёжное.
Спасибо. Вопрос к автору: можно ли восстановить данные с RAID при помощи R-Studio или другой тулзой при условии, что использовался аппаратный RAID контроллер и после его смерти диски были подключены к рабочей станции для восстановления? Воде бы в R-Studio есть такой режим. Если есть возможность поэкспериментируйте и расскажите о результатах.
И еще вопрос. Собираюсь прикупить RAID контроллер для linux сервера. Остановился на Adaptec RAID 6805E. Как у него организован RAID1? При выходе из строя контроллера я смогу снять данные без др. такого же контроллера? Существуют ли какие-нибудь утилиты у производителей для съема данных с винтов после смерти контроллера?
Конкретно про R-Studio сказать ничего не могу, я как то не сталкивался с восстановлением данных под виндой. Всё ещё зависит от того какой уровень RAID`а у вас поднят.
Не совсем понял вопроса на тему адаптека, RAID1 там организован так же как и у других контроллеров — зеркалирование, т.е. в случае поломки контроллера, вы можете подключить один из дисков и вытащить информацию. Утилиты для снятия данных с винтов от производителей никогда не встречал и думаю что их никто и никогда не делал.
Про организацию RAID1. Имел ввиду то где хранится на винтах информация о RAID (в начале или в конце). Если в конце, то обычно проблем не бывает, подтыкаешь к любому компу и все ок. А если она будет в начале? что тогда? Искать нужный адрес и монтировать с указанием смещения? И вообще как дела обстоят у других контроллеров в данном вопросе с RAID1. Я юзал встроенные в материнские платы LSI и Intel (fake raid) контроллеры. У них проблем с чтением RAID1 на другом контроллере не было, однако они мне не понравились.
UFO just landed and posted this here
А тут на хабре как-то была статья, как вытаскивали данные с полудохлого RAID5, вот только не помню, софтварного или хардварного.
Умер RAID встроенный на HP — меняйте мать по гарантии.
Ну да, а вот этот момент данные с винтов лежат ждут, а юзеры негодуют. Бэкап ночной ни кому в такой ситуации не сдался, когда актуальные данные всё же имеются, просто ждут месяц по гарантии новую мать.
Купите Care Pack с гарантированным временем восстановления, хотя и по обычной гарантии меняют в течении недели.
CarePack 27x7 с временем восстановления в течение 6 часов рулит, нас был случай когда сдохший в час ночи P800 заменили уже в 4 утра
Опечатка это. 24х7 конечно же
Меня в этом смущает только одно — кто-то должен принять запчать или инженера в 4 утра :)
Что смущает? Принимает инженера и запчасть собственно сотрудник инициировавший тикет в HP. К примеру админ в супорте которого этот сервер. В нашем случае инженер HP еще и поднял с постели работника склада DHL, на котором лежала новая запчасть
Склад DHL Supply Chain в Пушкино работает круглосуточно :)
В Екатеринбурге в тот момент он вообще непонятно как работал :-)
Отсутствие доступа к данным, простой предприятия — это всё не технические проблемы. Если предприятию не дороги данные, то и восстановиться с бэкапа не проблема. Если дорога каждая транзакция, то и решение должно быть построено так, чтобы ни одной транзакции не утекло мимо.
Кстати соглашусь. если руководство жлобится купить тот же нещастный новый рейд контроллер и положить его на полочку в холодный резерв, то это не проблемы ни ХД, ни администратора. Вот ИТ менеджера — да, это его обязанность, обьяснить не технически подкованному руководству, что будет, если эти сраные 100-200 баксов не выделят на новый рейд контроллер
UFO just landed and posted this here
Выходит, что у HP начиная с DL360 G5 стоят контроллеры PMC и обеспечивается обратная совместимость вплоть до G7, верно?
IBM только с x3550 M3 перешел на LSI, до этого были MRxx (Adaptec) и M5000 (LSI).

А кто производитель контроллеров для Dell?
UFO just landed and posted this here
Есть у меня старый Dell с впаяным Adaptec-овским чипом (кажется, 2650 или 1750)
UFO just landed and posted this here
Года три как всех потерял. И был продан. Есть контроллеры у HP от PMC (но без Adaptec вроде).
В предыдущем и текущем поколении это LSI (2108, теперь 2208).
Интересно, а где хотя бы упоминание организации SNIA (в состав входят HP, LSI, Dell, IBM, Seagate, Hitachi и т. д.), где слова об их стандартном дисковом формате DDF? Его использует множество современных контроллеров, как аппаратных, так и fake, а также понимает Linux mdraid (наряду с intel matrix storage manager и своим собственным форматом метаданных).

Неоднократно у меня было такое, например, что грузишь линукс на fake-raid железке — а он видит его как свой linux software raid с ddf-метаданными и всё отлично работает. Только ресинк начинает.
Во, вот это правильное кун-фу :)
Дело тут не столько в самом стандарте DDF и прочих, которые утверждает SNIA, а в том, что у нас в стране почему-то об этой организации вообще мало знают.
Вплоть до парадокса — я имею по сути высшую сертификацию SNIA (Которая Architect, нужно им выслать документы, чтобы Expert получить), но когда я говорю об этом людям в заказчиках и партнерах, которые плотно работают с СХД — вижу круглые глаза. Приходится объяснять, откуда на самом деле берутся утвержденные стандарты в области хранения данных :)
UFO just landed and posted this here
Ну вообще, конечно, знание некоторых принципов компенсирует незнание некоторых фактов. :)
Однако, на текущий момент ИТ сфера развивается настолько быстро, что мало кто может в принципе уследить за новыми стандартами в области или новыми версиями оных. И в большинстве случаев знания по поводу совместимости того или иного решения проще получить эмпирически.
Так что знание стандартов отрасли играет первостепенную роль именно при разработке архитектур для в некоей степени абстрактных решений, т.е. при разработке самой концепции той или иной системы. Все равно на этапе тестирования и внедрения важен в первую очередь эмпирический опыт.
UFO just landed and posted this here
Sign up to leave a comment.