«Memory Component Issue», или масштабный брак сетевого оборудования / Хабр

Подтвердилось существование проблемы, о которой многие догадывались.

Cisco объявили, что неназванный производитель памяти в течение пяти лет (с 2005 по 2010) поставлял им брак. Характер брака: оборудование с этой памятью может годами копить аптайм, не вызывая никаких нареканий к своей работе, но стоит перезагрузить его (по питанию или даже простым reload) — память перестает корректно работать, само устройство либо не загружается, либо загружается и периодически падает. Связано это с деградацией чипов памяти. По заявлению вендора, основные проблемы начинаются после двух лет эксплуатации.

Прежде чем в Cisco полетят тухлые помидоры, спешу предупредить: память стандартная, многие вендоры ее закупали, потому затронуто может быть великое множество единиц оборудования. Есть подтверждение об аналогичных проблемах у Juniper. Но только Cisco сознались, несмотря на неизбежный репутационный ущерб. Их финансовые потери из-за этой катастрофы составляют около 655 миллионов долларов.

Усаживаемся, достаем валидол и смотрим список затронутого оборудования.

Конкретные партнамберы и детальное описание симптомов можно прочитать в Field Notices или сразу по ссылкам.

Модули ACE10, ACE20, and ACE30
FWSM
ADM&AGM
SAMI
Разные HWIC, EHWIC, EVM, NME, SM модули
Разные SPA
Некоторые телефоны
Некоторые кодеки ВКС
ONS 15310 и 15454
ASR 1000
Маршрутизаторы 7200/7300
CRS
Многое под 7600 и 6500
Маршрутизаторы серий 800, 1800, 2800 и 3800
ESR10k
Сенсоры IPS-4240 и 4255
ASA 5505 и 5510-5550/ASA-SSM (модели 5500-X не упомянуты)
MDS 9000
Catalyst Express 500
Nexus 7000
Catalyst 4500/4900
Catalyst 3k
Catalyst 2k
ME3400 и ME2400
MGX
IE3000
AS5400XM и AS5350
UC520/540

Повторюсь, в зоне риска оборудование, произведенное 5-10 лет назад и до сих пор прекрасно работавшее, и выход из строя происходит именно при перезагрузке любым способом, а не при штатной работе.

Замена стандартная, по RMA, железки целиком или планки памяти, как только сломается. Судя по всему, бракованная память стоит далеко не в 100% упомянутого выше оборудования, а даже если в вашей железке именно она стоит — она может умереть не от сегодняшней перезагрузки, а через 10 лет.

Проверить по серийникам, кто в опасности, нельзя. Никак. Я пытался.

Коллеги. Думаю, на этом этапе все поняли, что много раз виденный мной подход «я когда-то купил за бешеные деньги один маршрутизатор Cisco, он годами работал и еще много лет прослужит, резерв не нужен» криминален. И даже горячий резерв уже может не помочь. Представьте себе, что в ЦОДе моргнул свет, и всё ваше сетевое оборудование сломалось и требует замены от самого факта кратковременного обесточивания и перезагрузки. Даже простая плановая ночная перезагрузка незарезервированной железки может обернуться судорожным поиском замены и длительным даунтаймом. Оценивайте риски, оформляйте сервисные контракты с быстрой доставкой, заранее находите или закупайте память на замену, меняйте само железо на более новое. Исходите из того, что после очередной перезагрузки любая железка из списка выше (и не только) может не подняться, планируйте пути отступления.

Напоследок почтим минутой молчания одну из многих безвременно усопших плашек памяти, ранее верно служивших в составе 2811-х маршрутизаторов.

Скрытый текст