Как стать автором
Обновить

Траблшутинг сервера глазами инженера технической поддержки

Время на прочтение2 мин
Количество просмотров5.4K

Работа инженера технической поддержки интересна тем, что каждый раз когда обращаются с проблемой, ты заранее не можешь определить, сколько времени займёт решение проблемы. Будешь ли ты ночевать дома или на объекте, всё зависит от конкретной ситуации.

Итак, предмет сегодняшнего исследования сервер Huawei 2288H V5 с весьма специфичной проблемой.  Начали сыпаться в BMC ошибки по оперативной памяти. Система успешно загружается, даже работает.

Первое, что интересно посмотреть, это логи сервера. Инструкцию как скачать и читать логи нашел на форуме - Обзор файлов дампа сервера Huawei. После долгих минут изучения, нашёл наконец более подробную информацию по ошибкам памяти: 6 планок генерируют "Memory configuration error".

По коду ошибки 0x0704 ничего поиск не дал результатов. Зато видны номера слотов (Sensor name), куда установлены DIMM. Решаю посмотреть схему установки планок памяти на плате на портале конфигурации сервера. Ввожу модель сервера, тип DIMM, количество CPU и DIMM. Появляется картинка с нумерацией слотов.

Определяем места расположения планок по номерам из лога. Получается странная ситуация, все планки расположены рядом. Тут уже начинаю думать, скорее всего с материнской платой что-то произошло, ну не могут сразу 6 планок памяти генерировать ошибки. Хотя, это может брак одной партии, но такие кейсы читал только про HDD/SSD.  

В официальной документации по серверу 2288H V5 есть логическая схема. Установленный процессор линейки Intel Xeon Scalable напрямую "общается" с планками памяти, благодаря встроенному контроллеру памяти. 

Держа в голове мысли, когда сервер работает в 365/24/7 при постоянной нагрузке CPU, возможен сбой оного. Решаюсь на проверку CPU2, методом замены местами с CPU1. Откручиваю радиатор, убираю весьма свежую термопасту, снимаю кронштейн держателя процессора, аккуратно достаю процессор...

...и честно сказать, испытываю диссонанс.

Как такое может быть?

Около часа выправлял эти ножки. Честно скажу, с таким сталкиваюсь впервые. Никто из персонала не смог объяснить появление данного рода неполадок. Кто открывал и совершал манипуляции с процессором останется тайной для меня навсегда.

Совершив очередную "магию", вышел на улицу, на лице появилась улыбка, солнце еще не село, практически целый день впереди. Буду спать дома сегодня:)

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Часто сталкивались с повреждениями контактной площадки CPU на серверах?
16.84% Да16
54.74% Нет52
28.42% Стараюсь в любом раскладе отсыпаться дома27
Проголосовали 95 пользователей. Воздержались 5 пользователей.
Теги:
Хабы:
Всего голосов 6: ↑6 и ↓0+6
Комментарии7

Публикации

Истории

Работа

Ближайшие события

19 августа – 20 октября
RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ
МоскваНижний НовгородЕкатеринбургСтавропольНовосибрискКалининградПермьВладивостокЧитаКраснорскТомскИжевскПетрозаводскКазаньКурскТюменьВолгоградУфаМурманскБишкекСочиУльяновскСаратовИркутскДолгопрудныйОнлайн
24 – 25 октября
One Day Offer для AQA Engineer и Developers
Онлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
26 октября
ProIT Network Fest
Санкт-Петербург
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань