olegbunin 19 окт 2018 в 13:42

Железо не подведет. Как я готовлю к бою десятки серверов в день

14 мин

27K

Блог компании Конференции Олега Бунина (Онтико)Высокая производительность*Серверное администрирование*Компьютерное железо

+39

Комментарии 51

marsianin 19 окт 2018 в 14:21

Теперь мы проверяем в трех местах: возле шпинделя, посерединке и снаружи.

А как вы убеждаетесь, что пишете именно у шпинделя, например? Контроллер диска же не выдаёт наружу данные о реальной геометрии. Или я чего-то не знаю? Можно этот вопрос раскрыть поподробнее?

artemirk 19 окт 2018 в 17:24

Мы исходим из предположения что геометрия линейна и сектора в начале и конце диска находятся на центро круговых концах блина. Я согласен с вами что возможны варианты. Но в нашем мире обычно усе одинакого, мы считаем что извращенцев не существует.

Tortortor 19 окт 2018 в 19:07

т.е. слился

-9

igrblkv 19 окт 2018 в 14:31

Насколько я понимаю, тестирование памяти загружается по TFTP — что мешает выгрузить итог тестирования на тот-же TFTP в виде файла?
По-идее, TFTP влезает на флешку внутри сетевухи, вместе со всем сетевым стеком, включая DHCP, BOOTP, PXE?

artemirk 19 окт 2018 в 17:22

Возможно хороший вариант. Но к сожалению загрузка в два этапа pxe и tftp и потом Ос заного просит ип у dhcp и заного настраивает сетевой стек. В версии ос memtest нет сетевого стека или мы его не нашли. Это мое видение процесса ге берусь утверждать что оно на 100% верное. Готов менять мнение глядя на факты. :)

Alexufo 19 окт 2018 в 14:34

Есть еще история с дешифрованием кода энигмы, который был перехвачен из подлодки в 45-ом. Ребятам тоже нужны вычислительные мощи)
В 2013 году вытащили следующее

Today around 02:30 GMT+2 ThrasherX-17 from team Keep The Fire Alive! returned the plaintext of 76 letters long FNYG MXHU message:

leitungvvvuuustuetzpktxwwwhavenxxfffttteunszwozwovierhuermitvrrhhhvvvgeloest

The message says:
«AN LEITUNG VON U BOOT STUETZPUNKT WILHELMSHAVEN: FUNKTELEGRAMM EINS ZWO ZWO VIER HIER MIT RHV GELOEST»

Which translates to:

"[To] Control from Submarine Base Wilhelmshaven: Radio message 1224 solved with RHV"

www.enigmaathome.net

А так же список проектов, которым бы вы тоже могли помогать.
boinc.berkeley.edu/projects.php

NickViz 19 окт 2018 в 15:44

ustasman 19 окт 2018 в 16:45

лёгкая недосказанность — харды не от батарейки крутятся, просто RAID контроллер хранит в себе открытые сессии записи и дописывает их, даже когда система тушится -)

artemirk 19 окт 2018 в 17:26

Не берусь утверждать откуда иммено ток на хардах. Я практик, запускаешь долгую операцию на хардах. Гасишь сервер открываешь и замечаешь шум и вибрацию от хардов. У нас их обычно не более 4. Батарейка была как от первых сотовых телефонов. Возможно чуть больше.

-2

KorP 19 окт 2018 в 19:58

Это шедеврально. :)))

DGN 19 окт 2018 в 19:09

Нет конечно, 2 часа память рейда сохраняется. Если свет дадут — кеш будет сброшен на диски.

nobletracer 19 окт 2018 в 19:43

Тоже удивила эта строчка. Просьба к автору предоставить пруфы.

igrblkv 19 окт 2018 в 21:26

Я не автор, и пруфов у меня нет, но…
Кэш — это оперативная память на котроллере, для сохранения данных в ней ей требуется постоянное питание и батарейка именно это питание и обеспечивает. Однако, если батарейка разрядится, то данные пропадут, хотя программа их писавшая будет уверена в обратном — ей отчитался контролер что всё записано — но по факту на диски данные так и не попали.
Есть и ещё один вариант, но там не батарейка используется, а суперконденсатор, т.к. необходимый промежуток работы после выключения известен. В этом случае питание нужно для полного копирования кэш-памяти из оперативной памяти на накопитель с энергонезависимой памятью. Дальше питание может отсутствовать сколь угодно долго, при возобновлении питания, все данные возвращаются в кэш-память и, в дальнейшем, попадают-таки на диски.

NickViz 20 окт 2018 в 11:49

вы наверное не догадываетесь, но все, кто имел дело с рейдом всерьёз, о бекапе кеша батарейкой, ионистором, флешем — знают. я, как и другие спрашивающие, был поражен заявлением, что диски (ну фигня-же, что они совсем по другой линии, не относящейся к контроллеру, запитаны, да?) крутятся у него 2 часа. все 12 штук. от батарейки смартфона. ладно, ошибся человек, бывает. закроем тему.

grumbler66rus 30 авг 2022 в 20:12

"все 12 штук." - и то и 24 :-D

НЛО прилетело и опубликовало эту надпись здесь

artemirk 19 окт 2018 в 17:27

Длина окружности с края больше.

-2

НЛО прилетело и опубликовало эту надпись здесь

divanikus 19 окт 2018 в 16:52

У меня как-то возникла бредовая мысль, а почему бы для подобных проверок не использовать софт для юнит-тестирования? Ну типа пишешь юнит тесты, раскидываешь ассерты, а потом запускаешь. Если отработало без ошибок — тестирование завершено. Если с ошибками — вот отчет чего сломалось. Не то чтобы прям кардинально меняет ситуацию, но прикольно. Наверное можно с другими дев-инструментами как-то объединить. Пробовал написать просто набор теста на адекватность сервера, в принципе не сложно получилось.

Dee3 19 окт 2018 в 18:27

Надеялся что для Memtest есть какие нибудь альтернативы, по аналогии с процессором и простыми числами.

Просто иногда попадал в ситуации, когда система работает с трудом, постоянно BSODы, memtest — OK! Но стоит пошевелить планки, поменять местами — все начинает работать. Мистика, в итоге решил что наверное кроме самих ячеек есть еще какие то операции-инструкции процессора-памяти которые можно было бы проверить под нагрузкой

divanikus 19 окт 2018 в 19:04

Memtest по-хорошему надо сутки гонять или около того.

DGN 19 окт 2018 в 19:13

Это для обывателей, когда памяти 4-8-16 гиг край. А если у вас 256?

Есть и другой момент. Сервера все поголовно с ECC, что там поймает мемтест? Выдает ли ECC наружу какую диагностику?

Tabletko 19 окт 2018 в 19:53

У меня после полугода работы пара планок ecc памяти начало сыпать ошибками. Выяснили когда zfs начала ругаться на неверные контрольные суммы файлов. Проверка на memtest показывала ошибки.

DGN 19 окт 2018 в 20:03

ECC не всесильна, она корректирует единичную ошибку, от случайной флуктуации, от космических лучей. Вот и интересно, есть счетчик где нибудь этих ошибок?

QuakeMan 19 окт 2018 в 21:47

Есть такой, в винде это вроде бы журнал WHEA.
В линуксе что то тоже должно быть. Механизм как раз служит для замены сбойной памяти до того как сбои сказываются на работе.
А проверять ECC память мемтестом как то не очень похоже на выбор который бы сделал профессионал.

DrSqaer 20 окт 2018 в 08:18

В IPMI сыпет ошибки вида Correctable ECC @ DIMM2A CPU2 — Asserted
Т.е во время теста мемтестом, даже если сам мемтест не покажет ошибки, в логах IPMI вы их уведите

edo1h 20 окт 2018 в 13:25

linux.die.net/man/1/edac-util

igrblkv 19 окт 2018 в 21:34

На имеющемся у меня древнем серваке в БИОС присутствует Лог Событий Памяти, где в случае проблем с памятью появляются соотв. записи.

divanikus 19 окт 2018 в 22:34

А какая разница? Так можно и стресс-тесты на 15 секунд запускать — ой, ничего не упало, значит все хорошо.

rzerda 20 окт 2018 в 05:46

Уважающее себя железо даёт посмотреть, что с ним происходит. В логе IPMI/iLO есть записи о корректируемых ошибках памяти. Не припомню, чтобы видел некорректируемые, впрочем. В Linux есть такой github.com/andikleen/mcelog, который умеет это всё доставать и писать в лог. В /sys/ тоже есть данные EDAC (вот пример использования), и их оттуда можно читать и передавать в ваш любимый мониторинг. Только отличное от 0 значение в uncorrectable errors я тоже никогда не видел, и даже в свое время смотрел в ядре, почему так, но не помню точной причины.

edo1h 20 окт 2018 в 17:31

пишут, что /dev/mcelog (через который работает одноимённая программа) deprecated

edo1h 20 окт 2018 в 20:33

del

grumbler66rus 30 авг 2022 в 20:14

"Выдает ли ECC наружу какую диагностику?" - Event Log в IPMI

GloooM 21 окт 2018 в 13:32

Пользуюсь вот такой штукой github.com/stressapptest/stressapptest в моих случаях гораздо эффективнее мемтеста, если мемтест надо часами крутить прежде чем ошибку найти, то тут хватает и 10 минут на аналогичное, уж не знаю что за конкретная магия там внутри )

navion 19 окт 2018 в 19:20

При тестировании дисков ещё надо замерять latency, чтобы исключить проблемы на шине контроллера. Это когда диск пишет со скоростью 250 МБ/с в один поток, но с latency в 1.5 секунды.

НЛО прилетело и опубликовало эту надпись здесь

IDDQDesnik 19 окт 2018 в 19:43

1. 60 мегабайт от 32 Гигабайт это 0,2%, а не 2%.
2. У жесткого диска, в отличие от компакт-диска, запись идет от края внутрь, соответственно и максимальная скорость падает по мере записи.

NesbI4 19 окт 2018 в 19:43

Кто не знает — батарейки на RAID хватает, чтобы все диски еще 2 часа покрутить. То есть ты выключаешь сервер, вынимаешь, а он еще 2 часа вращает диск, чтобы завершить все записи.
Понятно.

dzerik 19 окт 2018 в 19:43

Кто не знает — батарейки на RAID хватает, чтобы все диски еще 2 часа покрутить. То есть ты выключаешь сервер, вынимаешь, а он еще 2 часа вращает диск, чтобы завершить все записи.

Вы это серьезно? После этих слов ко всей статье начинаешь относиться как к чисто маркетинговой…
Для сведения: BBU — Battery Backup Unit (Модуль Резервной Батареи). BBU обеспечивает батарейную защиту питания для кэша контроллера RAID. В случае сбоя питания, BBU поможет сохранить данные в кэше.

porutchik 19 окт 2018 в 20:26

На сегодня это 2 юнита, в которые может поместиться либо 12 узлов однопроцессорных серверов, либо 4 узла двухпроцессорных серверов.

12 серверов — 3U

Утилита /bin/stress.

/usr/bin/stress

убивает down killer

OOM killer

Раньше было 3 производителя: Adaptec; 3ware; Intel. У нас было 3 утилиты, мы заморачивались, но проводили диагностику для всех. Сейчас LSI купил всех — осталась одна утилита.

Intel и был LSI

gecube 19 окт 2018 в 22:47

Тема контроллеров hp smartarray не раскрыта!
А вообще с замечаниями согласен. Именно они мне и бросились в глаза. Часть, предполагаю, возникла при расшифровке доклада, корректура не проводилась. А вот часть, обидно, получилась из-за ляпов уже в самом

edo1h 20 окт 2018 в 13:44

так и lsi с adaptec'ом вроде не сливались, или я что-то пропустил?

P.S. «BBU крутит диски два часа», «LSI купил всех производителей RAID, в том числе и Intel» — может это просто стёб?

Stas911 19 окт 2018 в 20:58

А чего не крипту майнить для проверки ЦПУ?

artemirk 24 окт 2018 в 08:07

Я не знаю как достоверно проверить что она правильно майнится. В целом я не против :)

stanislavskijvlad 20 окт 2018 в 12:07

Прочитал с большим удовольствием.
У вас интересная работа.

chemtech 20 окт 2018 в 16:03

Используете ли вы какой-нибудь фреймворк для сбора/хранения/отображения информации (серийные номера памяти, ЦПУ, HDD, SSD, где какие модули установлены)?

У вас запуск этих утилит автоматизирован или человек запускает их вручную?

Ваш любимый Linux — этой стандарный Linux или кастомный?

artemirk 24 окт 2018 в 08:06

Исторически сложилось что в качестве базы для всего этого используется DCIManager от компании ISPsystem. Различным надстройками и хуками вокруг него запускаем все эти крипты.

chemtech 1 фев 2019 в 14:54

А где вы храните информацию из dmidecode, других утилит?
Если да, то как вы отправляете эту информацию в автоматическом режиме?

artemirk 2 фев 2019 в 06:32

DCImgr слушает http. Изнутри diag linux скрипта зовется curl с post data. Хранится все в dcimgr, Он это просто в базе хранит. Парсится потом отдельной задачкой.

Chugumoto 20 окт 2018 в 17:02

Большинство серверов, которые не прошли проверку, мы просто выкидываем.

да? куда выкидываете? где забирать? :)

zxc80 2 мая 2023 в 13:45

«После этого остается у RAID проверить батарейку. Кто не знает — батарейки на RAID хватает, чтобы все диски еще 2 часа покрутить. То есть ты выключаешь сервер, вынимаешь, а он еще 2 часа вращает диск, чтобы завершить все записи.»
КАК? КАК, блин?
В фразе про недовольство RAID'ом про IOPS, латенси человек вообще не слышал? (FirstVDS, провайдер виртуалок, задумайтесь)
«Второе First boot device — [PXE], то есть первый загрузочный девайс мы ставим в сеть, иначе не сможем достучаться до сервера, так как не факт, что в нем есть сразу диски и т.д.» Ilo, IMM, IPMI, не… хрень какая-то
«Раньше не было IPMI, мы ставили удаленные розетки и фиксировали, в каком порту розетки сервер, дергали розетку по сети, и сервер перезагружался.» в каком году? У НР, был на всех серверах (кроме дешевых, согласен с нормальными плата была) с момента покупки компака, это сильно раньше 2010, у фествдс стоят серваки 1990 года+ ??
«Но когда сервер новый, IPMI не настроен, его можно перезагрузить, только подойдя и нажав кнопочку. Поэтому сидит человек, ждет — лампочка загорелась — бежит и жмет кнопку. Такая у него работа.»
оО, человек-хаб? По маку подключиться к IPMI не судьба (в том-же сетевом сегменте), мак, если что, на ярлычках написан (как ярлычек выдвинуть из сервера, эт только за деньги объясняю)
«Когда наша система диагностики видит RAID, она разбирает логический том на отдельные диски, чтобы можно было померить скорость каждого диска, почитать его Smart.»
Блочное устройство на диски??? Ну софт райд линукс может представить в виде дисков.
Дальше, хуже.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий