Комментарии 18
Но и спешить с обновлением не стоит. Многократно было так, что новая версия софта/прошивки несла с себе проблемы. С последующим отзывом и исправлением софта.
После выхода обновления нужно выждать определенный период. И только тогда ставить.
И как, обещанный аптайм оно отстояло до аварии или нет?
Кстати, ещё одним пунктом к статье можно добавить своевременное продление сервиса на систему для оперативного устранения подобных проблем службой поддержки вендора, т.к. такие системы обычно содержат в себе очень большое количество проприетарных элементов (как программных, так и аппаратных).
Аптайм считается очень просто: время аварии разделить на суммарное время с момента запуска в продакшен, умноженное на сто. Если оно меньше, чем 99.9999%, то вендор обосрамшись. Если больше — всё в пределах обещаний.
Что такое AP, FP и тому подобное на картинке draid?
А что хранится в hot spare блоках? Очевидно что-то должно лежать для увеличения иопсов в нормальном режиме.
Если допустить, что данные то на картинке банально схема рейд-6.
В RAID 6 будет примерно аналогичная картина, только для каждого страйпа будет 2 блока чётности и 1 блок HS.
Ещё вопросы:
1) картинка с draid-5 подозриьельнл напоминает распределение страйпов с контрольными суммами для raid 6
2) что означает фраза, что для draid-5 работа при восстановлении ведётся со всеми дисками группы. Это так работает и для любого обычного рейд-массива.
Что касается второго пункта, тут акцент именно на DRAID (не путать с RAID). Это, конечно же, в терминологии IBM приводится в данной статье. За счёт распределения однотипных блоков по разным дискам, каждый диск содержит в себе блоки каждого типа (данные, чётность, hot spare). За счёт этого, более количество операций может выполняться параллельно во время ребилда (т.к. участвуют разные диски в процессе), что ведёт к более равномерной нагрузке на диски и вероятному уменьшению времени ребилда.
Не уверен, что написал понятно) По сути, логика работы обычного виртуализованного массива.
Как вы думаете, когда контроллер решит, что bbu немного не в кондиции, что сделает эта СХД? Она выключит контроллер! А когда произведен второй bbu? В ту же дату, что и первый! Вероятность… Доступность, говорите ;)
Почему важно проверить ПО на вашей СХД высокой доступности (99,9999%)