Pull to refresh

Опыт обеспечения надёжности вычислительной техники при продолжительной эксплуатации

Reading time4 min
Views9.3K
Заканчивается 10-летие эксплуатации малой серии сконструированных под моим руководством компьютеризированных систем, и можно, не претендуя на всеобщность выводов, тем не менее, по случаю юбилея, подвести некоторые итоги в части надёжности работы вычислительной техники на продолжительных интервалах времени.

Изделие, опыт эксплуатации которого мы рассматриваем, предназначено для проведения измерений в реальном масштабе времени и состоит из ряда электронных модулей собственной разработки и иерархически организованной группы компьютеров: промышленной рабочей станции верхнего уровня типа ICP PPC-5150 под управлением Windows, промышленного управляющего компьютера типа ICP WS-855 с одной процессорной платой Rocky-C800 под управлением DOS и встраиваемого компьютера Fastwel CPU-188 под управлением DOS. Единицей эксплуатации на объекте является группа из двух изделий, резервирующих друг друга, и группового комплекта ЗИП (запчастей и принадлежностей). Всего имеется порядка 10 объектов эксплуатации в различных населённых пунктах России (соответственно, 20 изделий, или 80 входящих в них компьютеров с учётом ЗИПа). Гарантийный срок эксплуатации изделий составляет 10 лет, назначенный срок эксплуатации – 20 лет.

В целом, эксплуатация изделий за 10 лет прошла успешно. Благодаря удачно выбранной политике резервирования (полный горячий резерв плюс априорно наименее надёжные блоки и модули в ЗИПе), не было ни одного случая невозможности использовать изделие по целевому назначению.

Можно привести основные выводы в области надёжности для разработчиков компьютерных систем, полученные по результатам эксплуатации вышеупомянутой серии и, отчасти, других изделий. Некоторую полезную специфику собранной статистике, отличающую её от более широких данных ремонтных центров, придаёт одинаковость аппаратной конфигурации, программного обеспечения и целевой задачи эксплуатации изделий, установленных на различных объектах. Итак, выводы:

1. Значительное число отказов изделий (в нашем случае – порядка 50%) связано с выходом из строя серийно выпускаемых компьютерных комплектующих. Этот результат оказался для нас довольно неожиданным, так как на комплектующих мы не экономили, и априорно ожидали меньшей надёжности нашей собственной электронной аппаратуры ввиду её меньшей отработки. На описанной выше серии изделий мы получали в среднем по одной рекламации на компьютерные комплектующие в год.

2. Существует начальный период эксплуатации (несколько месяцев), в течение которого проявляются присущие комплектующим дефекты, не успевшие проявиться при тестировании у изготовителя. Статистика неисправностей на начальном периоде связана, по-видимому, с нераспознанным заводским браком, и существенно отличается от статистики дальнейшего периода (после года и далее), связанной с деградацией характеристик в ходе эксплуатации. Большинство неисправностей, обнаруженных в начальном периоде, в дальнейшем не повторяются.

3. Если компьютерные комплектующие изделия выходят из строя на втором-третьем году эксплуатации, можно с большой вероятностью утверждать, что такие же комплектующие будут выходить из строя и в дальнейшем. Из этого можно сделать вывод о целесообразности создания дополнительного ремонтного запаса по результатам двух-трёх лет эксплуатации, пока комплектующие данного типа ещё не сняты с производства.

4. Компьютеры типа PPC-5150 и их составные части выходили из строя многократно, в то время как WS-855 и CPU-188 и их составные части – ни разу после начального периода. Предположительно, это связано с более высокой степенью интеграции, более высокой частотой и более высокой температурой в PPC-5150.

5. Существует очень значительная зависимость вероятности выхода из строя электронных модулей от объекта их эксплуатации. Эта зависимость не сводится к человеческому фактору, так как за время формирования нашей выборки эксплуатирующий персонал на объектах менялся, а характер статистики – нет. Предположительно, причины сводятся к качеству электропитания или климатическим особенностям.

6. В компактных системных блоках производители склонны выбирать нестандартные конструктивные решения и менять их по мере производственной необходимости. Это приводит к тому, что, например, номинально общая серия ICP PPC-5150 распадается на ряд конструктивно несовместимых между собой моделей. При отказе, например, материнской платы в старой PPC-5150, установить на её место плату от новой PPC-5150 невозможно (по крайней мере, без лобзика и эпоксидной смолы), и приходится заменять системный блок целиком. [Здесь могло бы быть упоминание о фирме Apple].

7. При проектировании изделий с продолжительным сроком службы повышенное внимание необходимо уделять встроенным источникам питания (батарейкам), срок службы которых ограничен. Если стандартные элементы питания, вроде, скажем, CR2032 на материнской плате, можно рассчитывать без труда заменить через несколько лет, то с интегрированными модулями и микросборками, включающими элемент питания в свой неразборный конструктив, могут возникнуть значительные проблемы при их снятии с производства.

8. Системный блок компьютера, положенный целиком в ЗИП, может оказаться очень кстати. Эксплуатирующему персоналу гораздо проще заменить системный блок целиком, а потом, совместно с изготовителем, разбираться с локализацией неисправности, чем пытаться найти неисправную деталь на месте. Вообще, практика показывает, что единственным видом ремонтных работ, который целесообразно поручать эксплуатирующему персоналу, не имеющему специальной квалификации, является замена неисправных блоков или модулей целиком.

9. Информация, записанная на DVD-R/RW, проживает дольше нескольких лет только при известном везении. Впрочем, о долговременном архивном хранении информации лучше написать отдельную статью.
Tags:
Hubs:
+7
Comments9

Articles