Почему меня нервируют отказы современных SSD / Хабр

Сегодня один из SSD на одном из наших новых файловых серверов под Linux умер. Это не первая и, вероятно, не последняя смерть SSD, с которой мы столкнёмся, но, как почти всегда в таких случаях, я почувствовал, как шалят мои нервы – а всё из-за сочетания характера отказов SSD, их похожести на «чёрный ящик» и твердотельной природы.

Как и большинство других отказов SSD, этот произошёл внезапно; диск перешёл из состояния прекрасно работающего в состояние вообще не реагирующего ни на что секунд за 50, без какого бы то ни было предупреждения через SMART или что-либо ещё. Вот он радостно обрабатывает запросы на чтение и запись (по всем внешним признакам, в том числе и ZFS, которая не жаловалась на контрольные суммы), а вот уже нет никакого Crucial MX300 на SAS-порту.

Первое сообщение от ядра Linux об отказе IO-операций поступило в 20:31:34, а официально отсутствующим диск был объявлен в 20:32:15. Однако реально диск мог сразу перестать отвечать на запросы – мне не совсем понятны сообщения драйвера.

Что беспокоит меня больше всего по поводу этих резких отказов SSD – так это насколько они непонятны, и что я не могу сам себе объяснить, что именно пошло не так. Когда жёсткий диск крутится, он тоже может внезапно помереть, но, по крайней мере, можно составить объяснение того, что случилось перед этим – заклинило мотор, или случился другой физический отказ, приведший к резкому останову. SSD – твердотельные и таинственные, и у меня нет никаких объяснений тому, что пошло не так, особенно когда диск ещё молод и не должен был подходить к исчерпанию лимита жизни флэш-ячеек.

Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. С SSD теоретически такого происходить не должно, поэтому его ранняя смерть особенно беспокоит. Возможно, во флэш-ячейках тоже могут быть необнаружимые дефекты изготовления.

А когда у меня нет объяснения происходящему, мои мысли начинают идти по пути беспокойства – типа того, что диск обманывал нас по поводу своего здоровья в SMART-диагностике, и что он на самом деле использовал последние запасные ячейки, а потом они закончились, или что у него была какая-то ошибка в прошивке, которую мы случайно затронули, после чего он превратился в кирпич.

У нас было такое, что SSD таким образом умер, а потом вернулся к жизни, когда его достали и снова воткнули – и на вид был совершенно здоровым, что совершенно не внушает доверия. Но это был другой тип SSD. А ещё мы получали странные ошибки от SSD серии Crucial MX500.

Кроме того, когда у меня нет объяснения отказам SSD, каждый из них кажется мне непредсказуемой миной замедленного действия. Здоровы ли они или помрут завтра? Кажется, что я должен полагаться на статистику, то есть, что не слишком многие из них умрут, и сделают это не слишком быстро, чтобы их можно было поменять. И даже эта надежда зиждется на предположении об отсутствии корреляции отказов – что произошедшее с этим SSD с малой вероятностью произойдёт с другими, стоящими рядом с ним.

И эта проблема актуальна не только для наших файловых серверов – у меня есть то же беспокойство, связанное с моим домашним компьютером. Все данные я зеркалю, но каковы реальные шансы отказа обоих SSD?

В теории я знаю, что SSD должны быть куда как более надёжными, чем вращающийся ржавый диск. Также у нас есть куча SSD, тихонько работающих уже много лет. Но после таких загадочных внезапных отказов они уже не кажутся такими надёжными. Я очень хотел бы, чтобы у нас было какое-то предупреждение по поводу отказа SSD, ведь с HD это довольно часто было возможно (к примеру, такие предупреждения по поводу HD в одном из рабочих настольных компьютеров мне поступали – хотя я их и игнорировал).