А есть ли какие-то средства контроля состояния живучести SSD? Предупредит ли контроллер что кеш на последнем издыхании, и какое его будет поведение, если SSD переключится в read-only?
Я зайду издали и отвечу чуть шире, чтобы этот ответ мог пригодиться более широкой аудитории.
Во-первых стоит сказать, что SSD диски совсем не так устроены.
И они более надежны чем вращающиеся диски, к примеру стандартный промышленный диск SAS 10к имеет 1,6 миллиона часов ожидаемого срока службы до сбоя (MTBF), промышленный SSD имеет 2 миллиона часов.
Во-вторых они более быстрые, а это очень важно в процессе реконструкции RAID, если данные будут быстро восстановлены у нас очень сильно уменьшается вероятность выхода ещё одного диска из строя в процессе реконструкции и это опять косвенно улучшает их надёжность.
Из-за этого у систем NetApp FAS для дисков SATA/NL-SAS размер RAID-DP группы максимум 20 (18+2) дисков, в то время как для SAS/SSD это 28 дисков (26+2).
И я не буду здесь наверное приводить формулы расчёта надёжности RAID группы на основе скорости восстановления и MTBF, потому что легко догадаться, что имея больше MTBF и выше скорость надёжность будет выше по сравнению с HDD.
По внутренним подсчётам даже в самом худшем случае интенсивности перезаписи SSD должен прожить больше 5 лет. И здесь мы плавно переходим к следующему пункту.
SSD имеют стандартную гарантию 3 года, которая может быть расширена до 5 лет. В течении всего этого времени не зависимо от интенсивности использования SSD диска, NetApp будет бесплатно менять эти диски.
NetApp рекомендует продлевать гарантию, если это возможно, или менять все компоненты системы на которые она закончилась.
cDOT периодически, (Обычно в 1 час ночи) запускает процесс disk scrubbing который проверяет блоки (по умолчанию проверка включена, её можно отключать) данных на соответствие чексуммам (вы же помните что у нетапа, и многих других уважаемых вендоров, у каждого блока есть чексумма?) и в случае не соответствия восстановит этот блок в новое место при помощи RAID
cDOT также отслеживает состояние любого, в том числе и SSD диска и в случае увеличения числа возникающих ошибок система отправит такой диск в «maintenance center» если есть 2 Spare диска (по умолчанию) иначе система сразу пометит диск как битый и не станет пытаться его проверить и оживить. Если отключить проверку наличия 2х Spare дисков, система отправит диск в maintenance center если обнаружит сбойный диск.
И конечно же cDOT отслеживает состояние износа SSD. В случае обнаружения перечисленных ошибок система может запустить Rapid Cloning (и не запустит, если физически выдернуть рабочий диск на ходу) это процесс копирования всего что можно скопировать с диска на Spare перед тем как пометить его как битый или вывести в maintenance center, а всё что не получается скопировать будет восстановлено при помощи RAID.
После того как диск попадает в maintenance center он проходит ряд тестов и если система решит, что он повреждён он будет помечен как битый.
После того, как диск помечен как битый, система подключенная к AutoSupport отправит запрос на замену этого диска и в течении Next Bussiness Day после подтверждения инженером NetApp (это базовая гарантия, которая как минимум работает 3 года) новый диск бесплатно будет доставлен заказчику.
В системах NetApp доступна команда для просмотра состояния износа ячеек SSD
А дольше 5 лет гарантию продлить нельзя?
К примеру у IBM продление можно докупать в течении 5 лет после снятия железки с продажи (добив гарантию минимум до 7-8 лет), а задорого и после этого срока через контракт.
Если ваша модель у NetApp ещё на поддержке, то продлевать сервис на неё можно столько раз сколько нужно, до того момента пока оно не станет End of Support (EOS).
К примеру NetApp анонсировал систему 2240 в ноябре 2011, дата когда ещё можно заказать EOA (End of Availability) у этой системы март 2015, а End of Support (EOS) март 2020. Итого эта модель может поддерживаться 9 лет: до объявления EOA прошло 4 года и она ещё будет поддерживается начиная с последней продажи 5 лет.
Data ONTAP 8.3 ADP: FlashPool StoragePools