Как стать автором
Обновить

Ошибка в серверных процессорах серии AMD EPYC 7002 приводит к зависанию после 1044 дней работы, помогает перезагрузка ОС

Время на прочтение2 мин
Количество просмотров8.8K
Всего голосов 18: ↑18 и ↓0+18
Комментарии23

Комментарии 23

полтора дня.

"AMD не собирается выпускать исправление для этой ошибки"

и так сойдет

не баг, а фича!

как билайн, заботятся чтобы вы не платили за электричество в случайно забытом сервере)

Исправление ошибки всё равно потребует перезагрузки, а перезагрузка и так помогает на почти три года вперед.

Три года работает, а через три года "все равно новый компьютер покупать, ибо этот уже устарел".

Рекомендация от лучших капитанов AMD.

Хорошо, что сроки непрерывной работы до таких багов растут. У Вин95 было 49 дней (переполнение uint32 миллисекунд), у 12-ой Убунты - 24 дня (то же что в Вин95, но int32 со знаком, так что время вдвое меньше). А с 1044 дня уже можно жить.

Жить можно, но ломать голову почему упал гипервизор с пол сотни клиентов не самое захватывающее занятие.

Лучше бы им все таки исправить данную фичу, меньше седых волос было б у админов.

Без малого трехлетний аптайм - это и для гипервизора чересчур. Что это за среда, что живёт три года без обслуживания и даже без установки обновлений?

Centos 7 у меня примерно так и жил с qemu пока БП под замену не попал (Во времена когда эта версия была актуальной, и это был AMD Epyc). Да и любой гипервизор, чем меньше трогать тем лучше. Обновления требующие перезагрузки редкий зверь.
Сейчас вот мой почтовый сервер на Debian 10 работает 890 дней, специально проверил. Причин перезагружать или вообще трогать, у меня нет.

Иногда попадаются копролиты с кучей взаимосвязей и без какой-либо сохранившейся документации. И перезапуск которых - лотерея с низким шансом на успех (ибо надо дёрнуть неподнявшиеся сервисы ручками в строго определённой последовательности).

Вот такие машины не трогают и не апгрейдят, ибо последний админ, что хоть немного в этом понимал, уволился лет 5 назад.

Да, это плохо, да, такого не должно быть, но иногда оно таки бывает ;)

Ну хз. Софтинки, которые для старта требуют сложного колдунства через хитро закрученную задницу, я видел. Софтинки, у которых последний чувак, который как-то знал архитектуру, уволился пять лет назад, а предпослений уже умер от старости - тоже видел. Софтинки, которые настолько стабильны, что работают годами без перезагрузки, тоже видел. Но чтобы вот так сразу всё в одном сочеталось, это, как по мне, слишком уж гипотетический кейс.

Мне такой кейс в наследство достался.

Правда, не на серваке, на десктопе на одном из первых P4. Крутилось всё на XP во времена когда уже семёрка со сцены сходить начала. Внутри был злобный компот из древнего VipNet'а, хитрой РЖДшной софтины (то есть никакой доки в инете и прочих общедоступных местах) и древней версии CryptoPro. Каждая из софтин - отдельная тех. поддержка (никакого тебе одного окна). А, да, интерфейс исключительно через IE ;)

Оно работало, раз в неделю-две использовалось для заказа/отслеживания ж.д. вагонов нашего завода.

И вот однажды наличие XP в корпоративной сети было признано абсолютно запретным (и это правильно). В общем, я месяц или больше собирал функциональный аналог, общаясь со всеми тремя тех поддержками. Естественно, поменялось всё, от версий программ, до их настроек.

Особая проблема была с РЖД - там в лоб не позвонишь, там оставляешь заявку, а тебе перезвонят, может быть, когда нибудь ;)

В общем, как вспомню, так вздрогну. Хорошо, что я таким больше не занимаюсь.

P.S. А ещё у нас один сервак HP был весёлый - отправка его в перезагрузку приводила к отключению. А после его отключения он не включался рандомное количество времени (от получаса до суток). Мамка поддохла, а денег на новую (украденную из музея) начальство не давало.

Так что гасили сие чудо только в случае очень большой нужды.

Тут вы правы, очень часто старые сервера умирают именно после перезагрузки, особенно если при этом выключали питание. Либо блок питания и он не включается, либо материнка, либо внезапно жетский диск (особенно в случае с ssd)

Буквально пол года назад в одной из контор встречал эту связку випнета с РЖД софтиной(установлено было на Win7), устанавливал и работал с этим всем человек, который даже винду не умеет самостоятельно поставить. Как-то же он умудрился это всё установить и настроить с помощью поддержки? И как-то не жаловался, что там прямо беда с этим. Меня привлекли только когда это работать перестало после очередного обновления, оказалось, что клиент випнета не дружит с определённой версией касперского.

Э, батенька, в вашей конторе уже явно новая связка софта стояла. Её, если не путаю, потом именно уже по системе одного окна ставили. Когда и тех. поддержка знает все стадии установки, и софт единым комплектом выдаётся. А, может даже, и с единым инсталятором.

А мне вот не повезло, не дотянул я до таких радостей жизни. Я эту хрень лет 7 или больше назад ставил.

Ну, или можно было заказать специалиста, который отправился бы в командировку в наш город и лично бы всё поставил и настроил. Вот только сумма там была такая, что весь наш отдел мог бы пол-года зарплату получать.

Поэтому всё пришлось познавать опытным путём - там где-то стадий 10 установки (поставить то, прописать это, пофиксить випнетовский фаервол, e.t.c.) и куча галочек, которые ставятся не по дефолту и не так, как написано в прилагающихся инструкциях. Если где ошибся - начинай заново :)

Но, когда есть тобой же составленная инструкция, то, да, работы на час, максимум, со всеми настройками и проверками.

Плюс, со мной РЖДшники тестовой утилитой поделились, которая очень помогала косяки конфигурации найти. Ясен пень, в штатный набор софта она не входила.

P.S. Мешала ещё одна сложность - у меня кроме этой машины ещё пара-тройка сотен других подшефных была, от Кирова до Владивостока. В общем, сесть и вдумчиво помедитировать над проблемой было крайне непросто :)

Спасибо за новое слово в моем словаре: «копролит». Загуглил и взял на вооружение :).

Проверил — 3 года работает рядом гипер и некоторые ВМ. Медсистема.

Не так давно выключал для замены железа гипервизор виндовый(2012r2) с аптаймом 2000+ дней.

Режим энергосбережения на сервере с гипервизором - вот что точно чересчур.
Зависает-то он на выходе из C6

AMD EPYC 7002

EPYC Fail :)

* мем с двумя собаками *

компьютерное железо раньше:
работает десятилетиями без перезагрузок

компьютерное железо сейчас:
пук среньк рекомендуется перезагружать серверы чаще двух лет

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории