Pull to refresh
259.92
Rating
ua-hosting.company
Хостинг-провайдер: серверы в NL до 300 Гбит/с

Как умирает техника? Элементы теории надёжности

ua-hosting.company corporate blog
Некоторые люди, которые интересуются нашими услугами, задают вопрос: «Серверы, которые вы предоставляете, новые или б/у?» Именно этот вопрос побудил нас немного углубиться в теорию надёжности и рассказать, чем не совсем новый сервер лучше совсем нового, а также какой смысл надписи «Срок службы» в документации к Вашему холодильнику, почему и из каких соображений нужно заранее думать о замене рабочего ноута и некоторые другие интересные вещи.



В случае с серверами переживать заставляет в первую очередь состояние жёстких дисков. Многие убеждены, что если им поставят в сервер новые диски, только что привезённые с завода, они прослужат долго и счастливо. Но не все знают, что на кривой жизненного цикла есть определённый участок, на котором новенькое устройство может умереть так же быстро, как и видавшее виды. К этому мы вернёмся немного позже, а пока…

Немного теории


Теория надёжности (также иногда называется теорией отказов) — научное направление, которое занимается изучением принципов, закономерностей и составлением статистических моделей отказов технических устройств. Она возникла как ответвление от статистики и теории вероятности ещё в XIX веке и первоначально использовалась морскими страховыми компаниями и компаниями по страхованию жизни для оценки, какие тарифы будут прибыльными в реалиях тех времён. В 30-40-х годах XX века были заложены принципы расчёта надёжности энергосистем. С тех пор наука об отказах техники развивается параллельно с самой техникой.

Все технические объекты согласно теории надёжности делятся на восстанавливаемые и невосстанавливаемые. При этом причисление к невосстанавливаемым не обязательно означает полную невозможность ремонта, но также включает случаи, когда такой ремонт экономически нецелесообразен. Например, если в Вашем ноутбуке 3-летней давности окончательно умер аккумулятор вместе с контроллером, и замена будет стоить как треть нового и более современного ноутбука, лучше причислить Ваш старый к невосстанавливаемым и списать в утиль. Это может показаться очевидным, но на практике далеко не все производят соответствующую оценку и делают правильные выводы. Особенно этим грешат владельцы отечественных автомобилей производства 70-80-х годов, которые порой умудряются за несколько лет эксплуатации вкладывать в них денег на стоимость б/у иномарки начала 90-х.

Техническое состояние делится на 5 типов: исправность/неисправность, работоспособность/неработоспособность и предельное состояние. Первые два состояния характеризуют соответствие устройства технической документации, вторые два — способность устройства выполнять свои функции. Некоторые люди путают эти понятия, хотя на практике неисправность не всегда значит неработоспособность. Пример из личной жизни: сдавал на ремонт планшет, по какой-то причине в нём заменили системную плату. Новая плата была из другой серии, и оперативной памяти вместо 512 Мб стало 384 Мб. Планшет, естественно, вполне успешно работает. Но технической документации уже не соответствует, потому принимать из ремонта его как исправный нельзя.

Предельное состояние — это состояние, когда дальнейшая эксплуатация или ремонт являются недопустимыми, невозможными или нецелесообразными. Тут же стоит ввести понятие ресурса — суммарной наработки (продолжительности/объёма работы) устройства до перехода в предельное состояние. В быту ресурс работы часто можно встретить на лампочках-экономках. При этом, естественно, указывается средний ресурс — математическое ожидание, основанное на тестировании продукции.

Схожее с ресурсом, но содержащее в себе больше гипотез понятие — срок службы. По сути оно является попыткой перевести фактический ресурс устройства в какой-то календарный срок, т.е. указывает время, за которое в среднем ресурс будет исчерпан. При расчёте используется информация о том, сколько времени средний общечеловек проводит перед телевизором или сколько раз в неделю стирает вещи.

Существует несколько параметров, количественно описывающих надёжность того или иного устройства. Определяются они, как правило, экспериментально на тестовой партии, иногда с применением экстраполяции, если дождаться отказа всей экспериментальной партии не представляется возможным (например, в случае долгоживущих высоконадёжных устройств).

Вероятность безотказной работы P(t) — вероятность, что за промежуток времени t не откажет ни одно устройство из выборки. Также называется законом распределения надёжности.

Вероятность отказа F(t) — характеристика, противоположная P(t) и показывающая вероятность хотя бы одного отказа до момента времени t. Графически обе функции выглядят примерно так:

Всегда справедливо выражение: P(t) + F(t) = 1.

Плотность распределения безотказной работы называется частотой отказов и вычисляется как производная по времени от вероятности отказа:
a(t) = d F(t) / dt,
а интенсивность появления отказов в единицу времени (или просто интенсивность отказов) λ(t) определяется как соотношение частоты отказов к вероятности безотказной работы:
λ(t) = a(t) / P(t)

График интенсивности отказов выглядит следующим образом:



Кривая делится на 3 зоны: I — этап приработки, II — нормальная эксплуатация, III — старение (износ). На этапе приработки умирают в основном бракованные изделия. И в случае, если в партии устройств много брака, последствия массовой эксплуатации такой партии могут варьироваться от непредсказуемых до катастрофических. В комментариях к статье о том, как люди лишались своих данных, человек рассказывал об опыте использования жёстких дисков из одной бракованной партии в сервере, когда в течение часа один за одним умерли 24 диска.

И тут мы плавно подбираемся к тому, что новые диски, да и любая другая только что сошедшая с конвейера техника, вовсе не являются синонимом безотказности. А заодно к тому, что успешно проработавшая 2-3-5 месяцев техника, скорее всего, прослужит ещё долгие годы (или сколько там ей отведено).

Отдельно стоит рассмотреть этап старения. Считается, что для некоторых устройств и деталей износ практически не характерен. В частности, к ним относят полупроводниковые приборы. Считается, что при предусмотренных стандартами условиях эксплуатации ресурс таких устройств практически вечен. В компьютерной технике к таковым можно отнести процессоры и энергозависимую (оперативную) память. Практика показывает, что с большей вероятностью они отправятся в лучший из миров из-за сбоя по питанию (скачок напряжения или что-либо в этом духе). А вот все известные мне устройства хранения, к сожалению, подвержены старению. В HDD изнашивается механика и осыпаются блины, в SSD изнашиваются ячейки памяти (впрочем, изнашивает их только запись, что существенно облегчает ситуацию, если Вам нужно редко писать и долго хранить), магнитные носители размагничиваются, на оптических блекнет отражающий слой.

Кстати, занятный факт: жизненный цикл живых организмов чем-то похож на жизненный цикл технических устройств. Ниже приведён график зависимости вероятности смерти от возраста на основании реальных статистических данных по США за 2003 год.

Как бы печально и, возможно, даже жестоко это ни звучало, но у людей тоже есть этап приработки, в течение которого уходят в лучший из миров слабые детки.

А что на практике?


А на практике всем нам стоит помнить, что у всего есть свой ресурс и свой срок службы. И мы избавим себя от множества проблем, если будем следить за наработкой устройств как в промышленности, так и в быту. Даже больше это касается быта, т.к. в промышленных масштабах за этим зачастую следят специалисты.

Надеюсь, эта статья поможет кому-то решиться на покупку новой машины или ноутбука, отставив в сторону мысль «у меня ещё старый не рассыпался». Или заставит установить на серверы систему мониторинга «здоровья» жёстких дисков и, видя участившиеся ошибки, произвести замену раньше, чем наступит отказ или предельное состояние.
Tags:
Hubs:
Total votes 56: ↑52 and ↓4 +48
Views 55K
Comments 53
Comments Comments 53

Posts

Information

Website
ua-hosting.company
Registered
Founded
Employees
11–30 employees
Location
Латвия
Representative
HostingManager