В серии статей SSD 101 мы рассмотрели SSD со всех сторон. А теперь проверим главный аргумент фанатов SSD — что эти устройства выходят из строя гораздо реже, чем старые добрые HDD. Они обычно объясняют, что в SSD нет движущихся частей, и предъявляют документы от производителей с мутными расчётами среднего времени до отказа (MTBF). Всё это хорошо для рекламы, но мы предпочитаем реальную статистику частоты отказов.
Что такое отказ для SSD и HDD?
В своих ежеквартальных отчётах Drive Stats мы определяем отказ диска или как реактивный (диск не работает), или как проактивный (мы считаем, что отказ неизбежен). В случае HDD мы определяем проактивный отказ по специфической статистике SMART, которую сообщает сам диск и которую мы отслеживаем.
SMART, или S.M.A.R.T., расшифровывается как Self-monitoring, Analysis, and Reporting Technology и представляет собой систему мониторинга, встроенную в HDD и SDD. Основная функция — сообщать различные показатели, связанные с надёжностью диска, для предсказания отказов. Backblaze каждый день записывает атрибуты SMART всех работающих дисков.
То же самое для SSD. Различные модели сообщают разные показатели SMART, но некоторые совпадают. На сегодняшний день для SSD мы регистрируем 31 атрибут SMART-статистики. 25 из них перечислены ниже.
# | Description | # | Description |
---|---|---|---|
1 | Read Error Rate | 194 | Temperature Celsius |
5 | Reallocated Sectors Count | 195 | Hardware ECC Recovered |
9 | Power-on Hours | 198 | Uncorrectable Sector Count |
12 | Power Cycle Count | 199 | UltraDMA CRC Error Count |
13 | Soft Read Error Rate | 201 | Soft Read Error Rate |
173 | SSD Wear Leveling Count | 202 | Data Address Mark Errors |
174 | Unexpected Power Loss Count | 231 | Life Left |
177 | Wear Range Delta | 232 | Endurance Remaining |
179 | Used Reserved Block Count Total | 233 | Media Wearout Indicator |
180 | Unused Reserved Block Count Total | 235 | Good Block Count |
181 | Program Fail Count Total | 241 | Total LBAs Written |
182 | Erase Fail Count | 242 | Total LBAs Read |
192 | Unsafe Shutdown Count |
Оставшиеся шесть (16, 17, 168, 170, 218 и 245) мы не можем найти. Пожалуйста, напишите в комментариях, если у вас есть информация по отсутствующим атрибутам.
Мы только начинаем использовать статистику SMART для предупреждения отказов SSD. Многие атрибуты зависят от модели диска или производителя. Кроме того, у нас было пока мало отказов SSD, как вы увидите ниже. Это ограничивает количество данных для исследования. Так что в реальности мы пока не смогли предсказать ни одного отказа.
Сравнение яблок с яблоками
В серверах хранения данных в качестве загрузочных дисков работают и SSD, и HDD. В нашем случае называть их загрузочными неверно, поскольку они также хранят различные логи и т. д. Другими словами, регулярно читают, записывают и удаляют файлы, а не только выполняют загрузку сервера.
В первых серверах хранения данных мы использовали только HDD, поскольку они были дешёвыми и выполняли свою функцию. Так продолжалось до середины 2018 года, когда мы смогли купить SSD на 200 ГБ по цене около $50, что в нашем понимании было верхней ценовой границей для загрузочных дисков серверов хранения данных. Это был эксперимент, но всё получилось настолько хорошо, что с середины 2018 года мы перешли на использование только SSD и заменяли вышедшие из строя загрузочные HDD на SSD.
Итак, у нас две группы дисков — SSD и HDD — которые выполняют одинаковые функции, имеют одинаковую рабочую нагрузку и работают в одинаковых условиях в течение долгого времени. Естественно, мы решили сравнить частоту отказов загрузочных дисков SSD и HDD. Ниже приведены показатели отказов за весь срок службы для каждой группы по состоянию на II кв. 2021 года.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD | 1607 | 52,4 | 3 523 610 | 619 | 6,41% |
SSD победили… Подождите, не так быстро!
Всё понятно, SSD победили. Можно положить HDD на полку или на пол как ограничитель для двери. Но погодите, давайте сначала учтём несколько моментов, которые не вошли в таблицу.
- Средний возраст SSD составляет 14,2 месяца, а средний возраст HDD — 52,4 месяца.
- Возраст самых старых SSD — около 33 месяцев, а самых новых HDD — 27 месяцев.
В принципе, графики среднего возраста SSD и HDD не сильно пересекаются. Средний HDD более чем на три года старше SSD. Таким образом, эти группы находятся совершенно в разных точках своего жизненного цикла. А ведь понятно, что с возрастом диски выходят из строя чаще. Так что не спешите выбрасывать свой HDD…
Другим фактором является количество дней, сколько диски каждой группы проработали без сбоев. Большой разброс в количестве дней работы приводит к значительной разнице в доверительных интервалах двух групп, поскольку существенно различается количество наблюдений (т.е. дней работы).
Чтобы провести более точное сравнение, попробуем привести к общему знаменателю средний возраст и количество дней работы для SSD и HDD. Для этого можем перенестись назад во времени, когда группа HDD соответствовала группе SSD из II кв. 2021 года по среднему возрасту и количеству дней работы. Это позволит сравнить группы в один и тот же период жизненного цикла.
Взяв данные по HDD за IV кв. 2016 года, мы смогли сделать следующее сравнение.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD на II кв. 2021 | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD на IV кв. 2016 | 1297 | 14,3 | 659 526 | 25 | 1,38% |
Неожиданно разница в AFR оказалась не такой уж большой. На самом деле статистика каждой группы находится в пределах 95%-ного доверительного интервала другой группы. Окно довольно широкое (плюс-минус 0,5%) из-за относительно небольшого количества дней работы накопителей.
Что же в итоге? Мы получили некоторые свидетельства, что в начале работы (в среднем до 14 месяцев в данном случае) SSD выходят из строя реже, но не намного. Но вы же покупаете диск не на 14 месяцев, а на годы. Что мы знаем об этом?
Частота сбоев со временем
У нас есть данные по загрузочным HDD с 2013 года и по загрузочным SSD с 2018 года. На диаграмме показан Lifetime AFR каждого типа дисков до II кв. 2021 года.
Как видно, с 2018 года частота сбоев загрузочных HDD стала расти. Тенденция сохранялась в 2019 и 2020 годах, а в 2021 году (пока что) остановилась. Очевидно, что с увеличением возраста HDD увеличивается и частота отказов.
Интересно сравнить кривые в первых четырёх точках. Для флота HDD пятый год (2018) знаменовал резкий рост частоты отказов. Ждёт ли та же участь SSD в их пятый год? Хотя мы можем ожидать некоторого увеличения AFR по мере старения SSD, но будет ли оно таким же резким, как в случае с HDD?
Итог: SSD или HDD?
Что же нам покупать: SSD или HDD? Учитывая то, что мы знаем на сегодняшний день, вряд ли можно использовать AFR как фактор при принятии решения. С учётом возраста и количества дней работы оба типа накопителей схожи, а разница недостаточна, чтобы оправдать дополнительные затраты на покупку SSD вместо HDD. На данном этапе лучше принимать решение на основе других факторов: стоимость, требуемая скорость, энергопотребление, требования к форм-фактору и так далее.
В ближайшие пару лет мы получим более полное представление об AFR для SSD. И тогда сможем решить, насколько велика разница в частоте отказов SSD и HDD. А сейчас мы не видим, чтобы она была значительной.