Comments 51
Теперь мы проверяем в трех местах: возле шпинделя, посерединке и снаружи.
А как вы убеждаетесь, что пишете именно у шпинделя, например? Контроллер диска же не выдаёт наружу данные о реальной геометрии. Или я чего-то не знаю? Можно этот вопрос раскрыть поподробнее?
По-идее, TFTP влезает на флешку внутри сетевухи, вместе со всем сетевым стеком, включая DHCP, BOOTP, PXE?
Возможно хороший вариант. Но к сожалению загрузка в два этапа pxe и tftp и потом Ос заного просит ип у dhcp и заного настраивает сетевой стек. В версии ос memtest нет сетевого стека или мы его не нашли. Это мое видение процесса ге берусь утверждать что оно на 100% верное. Готов менять мнение глядя на факты. :)
В 2013 году вытащили следующее
Today around 02:30 GMT+2 ThrasherX-17 from team Keep The Fire Alive! returned the plaintext of 76 letters long FNYG MXHU message:
leitungvvvuuustuetzpktxwwwhavenxxfffttteunszwozwovierhuermitvrrhhhvvvgeloest
The message says:
«AN LEITUNG VON U BOOT STUETZPUNKT WILHELMSHAVEN: FUNKTELEGRAMM EINS ZWO ZWO VIER HIER MIT RHV GELOEST»
Which translates to:
"[To] Control from Submarine Base Wilhelmshaven: Radio message 1224 solved with RHV"
www.enigmaathome.net
А так же список проектов, которым бы вы тоже могли помогать.
boinc.berkeley.edu/projects.php
чё, правда штоле? :-) а можно точную модель такого рейда и размеры батарейки привести??
Кэш — это оперативная память на котроллере, для сохранения данных в ней ей требуется постоянное питание и батарейка именно это питание и обеспечивает. Однако, если батарейка разрядится, то данные пропадут, хотя программа их писавшая будет уверена в обратном — ей отчитался контролер что всё записано — но по факту на диски данные так и не попали.
Есть и ещё один вариант, но там не батарейка используется, а суперконденсатор, т.к. необходимый промежуток работы после выключения известен. В этом случае питание нужно для полного копирования кэш-памяти из оперативной памяти на накопитель с энергонезависимой памятью. Дальше питание может отсутствовать сколь угодно долго, при возобновлении питания, все данные возвращаются в кэш-память и, в дальнейшем, попадают-таки на диски.
Просто иногда попадал в ситуации, когда система работает с трудом, постоянно BSODы, memtest — OK! Но стоит пошевелить планки, поменять местами — все начинает работать. Мистика, в итоге решил что наверное кроме самих ячеек есть еще какие то операции-инструкции процессора-памяти которые можно было бы проверить под нагрузкой
Есть и другой момент. Сервера все поголовно с ECC, что там поймает мемтест? Выдает ли ECC наружу какую диагностику?
У меня после полугода работы пара планок ecc памяти начало сыпать ошибками. Выяснили когда zfs начала ругаться на неверные контрольные суммы файлов. Проверка на memtest показывала ошибки.
В линуксе что то тоже должно быть. Механизм как раз служит для замены сбойной памяти до того как сбои сказываются на работе.
А проверять ECC память мемтестом как то не очень похоже на выбор который бы сделал профессионал.
Т.е во время теста мемтестом, даже если сам мемтест не покажет ошибки, в логах IPMI вы их уведите
"Выдает ли ECC наружу какую диагностику?" - Event Log в IPMI
2. У жесткого диска, в отличие от компакт-диска, запись идет от края внутрь, соответственно и максимальная скорость падает по мере записи.
Понятно.
Кто не знает — батарейки на RAID хватает, чтобы все диски еще 2 часа покрутить. То есть ты выключаешь сервер, вынимаешь, а он еще 2 часа вращает диск, чтобы завершить все записи.Вы это серьезно? После этих слов ко всей статье начинаешь относиться как к чисто маркетинговой…
Для сведения: BBU — Battery Backup Unit (Модуль Резервной Батареи). BBU обеспечивает батарейную защиту питания для кэша контроллера RAID. В случае сбоя питания, BBU поможет сохранить данные в кэше.
На сегодня это 2 юнита, в которые может поместиться либо 12 узлов однопроцессорных серверов, либо 4 узла двухпроцессорных серверов.
12 серверов — 3U
Утилита /bin/stress.
/usr/bin/stress
убивает down killer
OOM killer
Раньше было 3 производителя: Adaptec; 3ware; Intel. У нас было 3 утилиты, мы заморачивались, но проводили диагностику для всех. Сейчас LSI купил всех — осталась одна утилита.
Intel и был LSI
Тема контроллеров hp smartarray не раскрыта!
А вообще с замечаниями согласен. Именно они мне и бросились в глаза. Часть, предполагаю, возникла при расшифровке доклада, корректура не проводилась. А вот часть, обидно, получилась из-за ляпов уже в самом
P.S. «BBU крутит диски два часа», «LSI купил всех производителей RAID, в том числе и Intel» — может это просто стёб?
Прочитал с большим удовольствием.
У вас интересная работа.
У вас запуск этих утилит автоматизирован или человек запускает их вручную?
Ваш любимый Linux — этой стандарный Linux или кастомный?
Большинство серверов, которые не прошли проверку, мы просто выкидываем.да? куда выкидываете? где забирать? :)
КАК? КАК, блин?
В фразе про недовольство RAID'ом про IOPS, латенси человек вообще не слышал? (FirstVDS, провайдер виртуалок, задумайтесь)
«Второе First boot device — [PXE], то есть первый загрузочный девайс мы ставим в сеть, иначе не сможем достучаться до сервера, так как не факт, что в нем есть сразу диски и т.д.» Ilo, IMM, IPMI, не… хрень какая-то
«Раньше не было IPMI, мы ставили удаленные розетки и фиксировали, в каком порту розетки сервер, дергали розетку по сети, и сервер перезагружался.» в каком году? У НР, был на всех серверах (кроме дешевых, согласен с нормальными плата была) с момента покупки компака, это сильно раньше 2010, у фествдс стоят серваки 1990 года+ ??
«Но когда сервер новый, IPMI не настроен, его можно перезагрузить, только подойдя и нажав кнопочку. Поэтому сидит человек, ждет — лампочка загорелась — бежит и жмет кнопку. Такая у него работа.»
оО, человек-хаб? По маку подключиться к IPMI не судьба (в том-же сетевом сегменте), мак, если что, на ярлычках написан (как ярлычек выдвинуть из сервера, эт только за деньги объясняю)
«Когда наша система диагностики видит RAID, она разбирает логический том на отдельные диски, чтобы можно было померить скорость каждого диска, почитать его Smart.»
Блочное устройство на диски??? Ну софт райд линукс может представить в виде дисков.
Дальше, хуже.
Железо не подведет. Как я готовлю к бою десятки серверов в день