
Оглавление
Ситуация на рынке: эволюция проблем
• Риск №1. Сложность диагностики и «фантомные» ошибки
«Таможня» для железа: наша система верификации
• Этап 2. Визуальный отсев на складе
• Этап 3. Лабораторная проверка
Заключение: принципы безопасных закупок ЗИП
Привет, Хабр!
В одной из моих прошлых статей я уже писал о том, что после ухода вендоров для многих компаний закупка запчастей превратилась в лотерею. Даже для нас — ИТ-интегратора — сложившаяся ситуация часто создавала неожиданные проблемы. Однако прошло время, и мы наладили новые подходы к закупке и проверке ЗИП, научились отсеивать контрафакт до того, как он попадает в инфраструктуру заказчика. Об этом мы с коллегой и поделимся опытом.
Меня зовут Иван Звонилкин, я руководитель группы обеспечения сервисных проектов в центре экспертизы по комплексному сервису К2Тех. Вместе с моим коллегой Данилой Фохтиным, инженером входного контроля ЗИП, в этой статье объясним, чем рискуют компании при закупке запчастей сегодня и как мы справляемся с этими рисками.
Ситуация на рынке: эволюция проблем
Брак встречался и раньше, особенно среди б/у компонентов или снятого с производства оборудования. Но если раньше неоригинальные детали и откровенные подделки были редкостью, то сейчас они встречаются регулярно. Это сильно сказывается на непрерывности работы всех ИТ-систем, когда запчасть не «взлетает» сразу или выходит из строя через дни или недели. ИТ-директор планирует апгрейд под конкретное окно обслуживания, сроки срываются, а инженеры вместо работы тратят дорогие человеко-часы на выяснение причин. Но срыв сроков — полбеды. Куда опаснее то, что с «серым» импортом приходят проблемы, которые крайне сложно диагностировать.
Риск №1. Сложность диагностики и «фантомные» ошибки
Самое опасное в неоригинальных запчастях — скрытые дефекты. Когда вы покупаете «кота в мешке», стоимость владения оборудованием растет за счет времени, потраченного на поиск и устранение ошибок.
Это хорошо иллюстрирует пример из нашей практики: у СХД EMC Unity стала отказывать планка памяти на одном контроллере. Система работает, но алертит «поменяйте». Заказчик получает замену, планирует окно обслуживания, снимает нагрузку. Затем ставит новую планку — система не загружается.
Оказывается, что память неоригинальная. Но визуально это не определить — подделать наклейку стоит копейки, но СХД проверяет наличие партномера, прошитого в чипе SPD на планке. (А мы теперь умеем читать дамп напрямую из SPD программатором для проверки всех нужных параметров.)

В результате замена не прошла, а время, выделенное на обслуживание (замена + перезагрузка контроллера ~40 минут), заканчивается. Заказчик ставит исходную «битую» планку назад, но Unity достаточно «капризен» к планкам, и контроллер всё равно не стартует сразу. Понадобилось переусаживать в том числе и другие планки несколько раз.
В итоге вместо запланированного часа потратили в разы больше времени + нервы и риски. При этом со следующей доставленной на замену планкой может быть точно так же. При этом ещё есть риск, что с «битой» планкой вообще бы не получилось запустить контроллер, а вариантов запустить его с уменьшенным объёмом кэша тоже нет, так как СХД тогда осталась бы работать на одном контроллере без отказоустойчивости. Если откажет второй, то данные станут недоступны.
В нашем случае это была неприятная, но управляемая ситуация: есть резервные СХД и репликация/бэкапы. Но представьте, как этот сценарий выглядит в компании без такого запаса прочности.
Здесь попытка сэкономить условные 20-30% на серых комплектующих превращается в управленческий кошмар для ИT-директора, команд поддержки инфраструктуры. В лучшем случае теряется масса времени на бесконечные пересылки и возвраты брака. В худшем — влечет длительный простой критически важных сервисов, стоимость которого может кратно превышать цену всего оборудования.
Риск №2. Несовместимость
Несовместимость компонентов — очень коварная проблема. Ситуация настолько сложная, что нам иногда приходится консультировать поставщиков, которые сами не понимают, почему их «оригиналы» не работают. К слову, с такими кейсами сталкиваемся не только мы, но и другие сервисные команды нашего центра экспертизы, обеспечивающие поддержку телеком-решений, инженерных и мультимедийных систем.
Вот лишь несколько примеров из нашей коллекции компонентов вычислительного оборудования:
Региональные особенности
Взять, например, двухсокетные серверы. В них устанавливается пара одинаковых процессоров, и если один из них выходит из строя, нужна идентичная модель. Как-то мы заказали уже снятый с производства процессор Intel Xeon Scalable 6230R и при получении были изрядно удивлены, увидев что-то похожее на него, но с другой маркировкой. Установили полученное «нечто» в пару к Intel — сервер ожидаемо не загрузился, но если оставить только его, то всё работает.

Мы стали копать и выяснили, что на китайском рынке есть некие адаптированные («импортозамещённые») «копии» процессоров Intel от Montage Technology. Фактически это тот же самый процессор, но CPUID/Spec Code у него отличаются от оригинала, поэтому работать вместе они не будут. Нам это ещё раз показало важность входной проверки: если бы сервисный инженер получил такой сюрприз на площадке, пришлось бы делать второй выезд или ждать срочную доставку со склада.
Конфликтующие компоненты
Бывает, что заказчик сам покупает сервер, а потом его комплектующие конфликтуют с нашими запчастями.
Недавний случай: потребовалось заменить процессор Intel Xeon Gold с неработающей линией NVMe. Ставим оригинальный процессор той же модели — пара не работает. Разбираемся. Оказалось, несовпадение в степпингах (причём визуально на процессоре этого не видно, только по CPUID в логах сервера). Сервер, судя по всему, ввезли пустым ради экономии, а потом нафаршировали процессорами и памятью, которые удалось найти подешевле. Вполне могли попасться инженерные образцы или партии с нестандартными степпингами. В итоге нам пришлось заменить сразу оба.
Такие проблемы были актуальны на заре серверной эры, и вот вернулись. Теперь приходится держать в запасе минимум пару процессоров, а лучше четыре, чтобы перекрыть риски несовместимости.
Просто подлог

В старых СХД HPE EVA используются свинцовые батареи. Новых таких уже не делают, поэтому на замену берут восстановленные. Однажды мы вскрыли одну такую и увидели прекрасное: часть элементов внутри припаяна к основной плате только одним контактом, а второй откушен под корень. То есть мертвые модули оставили в корпусе просто для веса, чтобы батарейка казалась тяжелой и настоящей: поставщик заменил только часть элементов, так как они подключены параллельно, в надежде, что мы не заметим, и всё будет работать. Но не прокатило.
И «мстительный» вендорлок
Иногда к нам приходят за помощью, когда попытка самостоятельного апгрейда уже привела к катастрофе. Долгое время у нас не было драматичных случаев, но буквально недавно мы получили идеальный (в плохом смысле этого слова) пример того, как работает мина замедленного действия.
Клиент купил на стороне 10 дисков для старой СХД Hitachi (EOS). Поначалу всё шло гладко: диски добавили, перенесли на них продуктив. Но через несколько дней начался «дископад»: накопители впадали в ошибку один за другим, пока не закончились Spare-диски и не развалились RAID-группы.
В теории заказчика спасли бы бэкапы. На практике восстановиться не давала сама железка. Из-за массового «мора» дисков СХД ушла в глухую несознанку, и включилась защитная блокировка. Штатно она снимается либо кодами вендора, либо полной переустановкой системы. И тут мы уперлись в тупик. Вендор, очевидно, ушел и забрал поддержку с собой, а переустановка ОС сносит все лицензии на фичи типа тиринга и снэпшотов. Ключи, разумеется, никто не хранил — старое же оборудование. Получился замкнутый круг: железо и бэкапы есть, но СХД превратилась в кирпич. Единственный официальный путь ремонта — переинициализация, после которой массив без лицензий становится бесполезным для текущих задач.
К счастью, наша техническая экспертиза по архитектуре Hitachi позволяет решать такие задачи. Поскольку заказчик официально приобретал этот функционал вместе с СХД, мы, используя инженерные доступы и знание внутренней логики ОС, смогли корректно восстановить лицензионную конфигурацию.
В лучших традициях жанра работы шли ночью. Пока вся страна (и наши коллеги) веселились на новогоднем корпоративе, на площадке работали инженер, специалист по лицензиям и команда эскалации. К утру СХД ожила, данные начали заливаться из бэкапов. Теперь заказчик будет разбираться со своим поставщиком дисков, а мы, возможно, получим эти «чудо-накопители» на изучение.
Этот случай доказал нам: стандартный SMART-тест диска больше не гарантия. Контрафакт научился обманывать быстрые тесты. Поэтому теперь подозрительные партии мы ставим под реальную нагрузку на стендах.
«Таможня» для железа: наша система верификации
В прошлом году, когда мы создали центр экспертизы по комплексному сервису, мы еще раз пересмотрели и усовершенствовали логику закупок. У нас появилась собственная система проверки ЗИП.
Конечно, теоретически такой входной контроль можно организовать и внутри компании-заказчика, но на практике это потребует слишком больших затрат. Для качественной проверки придется содержать, питать и охлаждать десятки дополнительных тестовых стендов, закупать спецборудование и выделять квалифицированных инженеров.
Вторая неочевидная проблема касается самостоятельной закупки ЗИП: она создает огромные риски для бизнеса, так как на рынке слишком много непроверенного оборудования с туманной историей происхождения, поэтому, чтобы не превращать поддержку в бесконечное устранение проблем совместимости, критически важно внимательно выбирать контрагента и понимать, кто и откуда везет запчасти.
Когда зарубежные поставщики еще были в России, то входной контроль был задачей сотрудников нашего склада. Теперь этим занимается отдельное направление внутри нашей группы обеспечения сервисных контрактов — инженеры, которые не ездят к заказчикам и не чинят серверы в полях, а занимаются только запчастями (пополнение склада, тестирование, ремонт самих компонентов и т. д). Мы разделили экспертизу, ведь приоритетная задача полевых инженеров — предотвращать возникновение инцидентов и оперативно устранять их последствия, а сотрудники склада не могут полноценно протестировать привезенную деталь.

Главная сложность в этом деле — большой масштаб. У нас на сервисной поддержке сотни моделей оборудования, и держать в офисе полную копию инфраструктуры всех заказчиков с десятками стоек, питанием и охлаждением невозможно физически и экономически. Пришлось искать иные способы подтверждения оригинальности и работоспособности компонентов.
Этап 1. Подготовка
Мы стали системно собирать информацию о характерных признаках контрафакта и развернули специализированные стенды для тщательной проверки оборудования. Закупили тестовое оборудование и программаторы, написали базовые регламенты. Систему проверок выстраивали итеративно: столкнулись с новым типом подделки — добавили кейс в базу знаний и обновили чек-лист, чтобы следующий инженер знал, куда смотреть.
В этом году продавцы контрафакта, кажется, наконец обзавелись качественными принтерами. Их наклейки и голограммы сложно отличить от оригинала, нужно приглядываться к платам. По бумагам приехала 2-ранковая память с правильным объемом (судя по наклейке), но если приглядеться, чипы распаяны как для 4-ранковой.
Этап 2. Визу��льный отсев на складе
Мы учим кладовщиков не просто сверять номера на этикетках, но и замечать сколы, трещины, странные наклейки, подозрительную грязь. Иногда сверяем деталь с эталонными фото из интернета.
Пример креатива поставщиков на грани абсурда. Недавно заказчик пригласил нас проверить поставку новых серверов Dell, купленных самостоятельно. Подозрение вызывали пластиковые рамки для вентиляторов, которые отличались по цвету. Один из наших инженеров взял эту рамку в руки, а она просто рассыпалась.
Сейчас модно пустое шасси Dell начинять оборудованием по принципу с «миру по нитке». Вероятно, кто-то из поставщиков решил сэкономить три копейки, купил голые вентиляторы, а крепежные рамки напечатал на 3D-принтере из дешевого, не светостабилизированного пластика. Полежало это добро, и со временем пластик стал хрупким. Если бы такой вентилятор развалился внутри работающего сервера в дата-центре, даже представлять не хочется.
Вот другой пример. Справа — оригинальный диск 3285262-A для СХД Hitachi HUS, а слева — нет. Визуальное отличие — в маркировке модели R5D-M200SS: эта модель для аналогичного 200Gb SSD, но уже от СХД VSP, настоящий артикул 5559263-A. А здесь неоригинальная наклейка.
Склад сверит артикул и примет диск. Но дальше нужно лезть в документацию и проверять соответствие модели (а также то, что серийник на диске совпадает с номером на салазке). И даже это не гарантия, что на следующем этапе мы этот диск не отбракуем.

Этап 3. Лабораторная проверка
Для категорий высокого риска (память DDR4/DDR5, диски) склад автоматически создает заявку на проверку в системе. Мы ведем отдельный проект входного контроля в Jira. Инженер забирает деталь, прогоняет через стенды и снимает логи. Все данные мы можем предоставить заказчику по запросу.

Раньше инженер мог запустить плату с одним процессором и парой планок памяти, увидеть, что лампочки загорелись, и окей. Сейчас регламент стал жестче: проверка материнской платы только с двумя процессорами и полной набивкой памяти (для этого мы даже сформировали отдельные комплекты процессоры+радиаторы+память под разные поколения серверов, которые теперь у инженеров всегда под рукой).
Если деталь оригинальная, в системе появляется статус «Проверено» с логами и скриншотами диагностических выводов, которые добавляет инженер по итогам проверки. Это нужно, чтобы через год можно было поднять историю и увидеть, как именно эту деталь тестировали. Если такого статуса по какой-то причине нет, а нужно лететь к заказчику в условный Владивосток, сервисный инженер может сам запросить специальную проверку запчасти перед выездом.
С браком стараемся работать по принципу чем «раньше, тем дешевле». Если ловим проблему на входе или в первые недели после поставки, то успеваем вернуть или обменять товар. А если проблемный компонент пролежит на полке год и всплывет только при аварии, его остается только списать на опыты.
Кстати, кейс с Hitachi добавил в наш регламент новый пункт. Теперь, если нужно поставить диски на апгрейд СХД, кроме стандартной проверки мы стараемся ставить их у себя под нагрузку на несколько дней. Перестраховка в текущих реалиях лишней не бывает.
По сути, такая система верификации ЗИП уже не просто технический контроль и забота о репутации сервиса, а страховка ИT-инфраструктуры и бизнеса наших заказчиков.
Заключение: принципы безопасных закупок ЗИП
Главное, что хочется сказать напоследок: рынок не умер, он просто стал требовать другого подхода — теперь любая закупка ЗИП начинается со здорового недоверия.
Здорового, потому что не всегда виноват поставщик. У нас был случай, когда из партии в пять новых ленточных приводов прямо с завода два оказались неисправными. Это был простой производственный брак, который возможен в любой цепочке поставок. Один дистрибьютор, например, в итоге вообще убрал из ассортимента ленточные приводы, так как не справлялся с возвратами.
Так что важно не рубить с плеча. Проблемная партия — это не повод сразу ставить крест на поставщике. Если разбрасываться партнерами при первой ошибке, очень быстро останешься в вакууме. Ситуация на рынке иногда вынуждает идти к рискованным источникам, и тут спасает только жесткий контроль на входе.
Главный рецепт выживания сегодня — обязательная проверка любой поставки и обмен опытом. Жизненно важно контактировать со смежниками, конкурентами, партнерами. Рассказывать о новых схемах обмана, иногда выручать друг друга запчастями. Чем больше компаний начнут реально проверять поставки и возвращать брак, тем быстрее рынок повзрослеет и вновь станет упорядоченным.
А что думаете вы? Делитесь в комментариях вашими кейсами, как вы проверяете запчасти — интересно поговорить о наболевшем.
