Пример расчета «коэффициента готовности» для IT-системы / Хабр

Задача: в Техническом Задании на комплексную IT-систему был пункт – «выполнить расчет коэффициента готовности системы».

Решение: использовать материалы из ГОСТ, запросить дополнительные данные у вендоров по элементам оборудования и использовать несложную математику для выполнения итогового расчета.

Нормативные ссылки:

ГОСТ Р 27.002-2009 («Надежность в технике (ССНТ). Термины и определения»)

ГОСТ Р 27.003-2011 Надежность в технике (ССНТ). Управление надежностью. Руководство по заданию технических требований к надежности

ГОСТ 27.002-89 Надежность в технике (ССНТ). Основные понятия. Термины и определения

Согласно ГОСТ Р 27.002-2009 («Надежность в технике (ССНТ). Термины и определения») коэффициент готовности (в области надежности в технике) — это вероятность того, что изделие в данный момент времени находится в работоспособном состоянии, определенная в соответствии с проектом при заданных условиях функционирования и технического обслуживания.

Таким образом, готовность отражает способность системы непрерывно выполнять свои функции.

В общем случае, для информационных и компьютерных устройств, коэффициент готовности – это вероятность того, что компьютерная система в любой (произвольный) момент времени будет находиться в рабочем состоянии.

Коэффициент готовности (K) определяется по формуле:

K = MTBF/(MTBF+MTTR),

где:
— MTBF (Mean Time Between Failure) — среднее время наработки на отказ (средняя наработка между отказами);
— MTTR (Mean Time To Repair) — среднее время восстановления работоспособности (среднее время до восстановления).

В отличие от надежности, величина которой определяется только значением MTBF, готовность зависит еще и от времени, необходимого для возврата системы в рабочее состояние.

Итак, у нас есть определенная IT-система (сервера стоечного исполнения, блейд-сервера, система хранения данных).

Отказоустойчивость на уровне оборудования такой IT-системы позволяет ее сервисам продолжить работу в случае аппаратной неисправности отдельных компонентов серверного оборудования, системы хранения данных или инфраструктуры.

Отказоустойчивость функционирования внутренних компонентов IT-системы достигается применением следующих технологий:

резервирование блоков питания серверного оборудования, систем хранения данных;
резервирование сетевых адаптеров серверов;
резервирование оптических адаптеров серверов;
резервирование линий кабельных соединений коммутации серверов и сети передачи данных и сети хранения данных;
дублирование модулей блэйд-шасси: блоки питания, модули управления, вентиляторы, модули коммутации;
размещение информации на дисковых системах хранения данных с применением отказоустойчивых групп дисков (RAID).

В итоге, все основные компоненты оборудования IT-системы – сервера, блоки питания, дисковые накопители, сетевые адаптеры, коммутаторы — имеют резервирование с возможностью горячей замены.

Электропитание оборудования IT-системы осуществляется от двух независимых источников. Подключение оборудования IT-системы к внешним сетям передачи данных и сетям хранения данных также дублируется.

Все подсистемы IT-системы имеют резервирование, поэтому при отказе любого элемента оборудование IT-системы в целом останется в работоспособном состоянии. Более того, замена отказавшего элемента возможна без остановки оборудования IT-системы.

Вероятность (P) выхода одного компонента из строя в течение одного года составляет:
P = 1/MTBF.

Отказ дублированного компонента приведет к отказу оборудования только при условии, что компонент-дублер тоже выйдет из строя в течение времени, необходимого для «горячей» замены компонента, отказавшего первым. Если гарантированное время замены компонента составляет 24 часа (1/365 года) (что соответствует сложившейся практике обслуживания серверного оборудования), то вероятность такого события в течение года:

Вычислив вероятность отказа всех N компонентов оборудования IT-системы, можно рассчитать вероятность отказа оборудования IT-системы в течение одного года путем суммирования каждой вероятности отказа:

Так как отказы компонентов обычно распределены во времени равномерно, то, зная вероятность отказа оборудования IT-системы в течение года, можно определить время его наработки на отказ:
MTBFs = 1/Ps.

Коэффициент готовности оборудования IT-системы будет равен:
Kit = MTBFs/(MTBFs+MTTR).

Выполним расчет коэффициента готовности оборудования IT-системы из 26 компонентов (каждый из компонентов имеет несколько элементов).

Основная проблема в таблице ниже – актуальные данные по параметру MTBF для каждого компонента. Эти данные очень неохотно предоставляют вендоры. Часто приходится вступать в переписку с представителями вендоров для просьбы предоставления и уточнения этих данных.

В таблице ниже выполнен расчет для «устаревшей» IT-системы, но сейчас она функционирует уже почти пятый год в боевом режиме без отказа компонентов, но уже Заказчик планирует миграцию на новые компоненты не дожидаясь крайний сроков из итоговых расчетных данных.

(*) – исходные данные по MTBF являются оценочными, предоставленными по данным позициям оборудования производителя или их аналогам.

В итоге расчетные данные по оборудованию нашей системы:

вероятность отказа оборудования системы в течение года: 0,0966;
MTBF оборудования системы (лет): 10,35 (90666 часов);
среднее время устранения неисправности (часов): 24;
коэффициент готовности оборудования системы (%): 99,97;
среднее время простоя в год (часов):2,61 (156 минут).

По итоговым строчкам из таблицы можно увидеть, что у нас есть не дублированные элементы СХД и этот момент очень сильно влияет на расчетные данные. По возможности нужно дублировать эти элементы (как рекомендация) или использовать другую компоновку СХД.

Этот расчет, конечно, очень оценочный. Но основное понимание, что система оптимальна или нуждается в дополнительных элементах, может предоставить.

По факту данные таблицы с расчетами заносятся в нужный раздел проектной документации и выдаются Заказчику.

Интересно выполнить такой расчет для комплекта сетевого оборудования (с максимальным разбиением на элементы до SFP-модуля и блоков питания) и сравнить с разными вендорами данные итоговые.