t3chnowolf 21 авг 2024 в 14:00

Backblaze: надежность жестких дисков продолжает падать

3 мин

13K

Блог компании МТСИсследования и прогнозы в IT*Статистика в ITКомпьютерное железоНакопители

+52

Комментарии 47

ky0 21 авг 2024 в 14:22

Без метрик "количество отказов на единицу прочитанной/записанной информации" сделать вывод, стали ли диски менее надёжными, нельзя.

Если раньше диск ломался, условно, через год после чтения 10 петабайт, а сейчас начал ломаться через полгода после чтения 25 петабайт (а это вполне понятный тренд, учитывая увеличение ёмкости дисков) - то получается, что стало не хуже, а лучше.

tuxi 21 авг 2024 в 14:33

Но по факту, если раньше была 1 поломка в год, а сейчас например 2 - то стало хуже. И не важно сколько петабайт отдал/записал наш сервер, фактически важно только то, сколько раз и сколько времени сервер был не доступен. Разве нет?

ky0 21 авг 2024 в 15:30

Недоступность чего бы то ни было тут вообще не рассматривается, только HDD, единичные отказы которых компенсируются избыточными массивами.

Если диск крутится, но по факту не используется - это работа вхолостую. Диск, целый год лопатящий данные под СУБД и диск, на который всё это время складываются бэкапы - это очень разные диски и мерять между ними "среднее по больнице" некорректно.

N-Cube 21 авг 2024 в 17:22

Прежде чем сочинять вот это все, прочитайте, о чем речь идет. Backblaze это облачный провайдер, у которого четверть миллиона дисков используются половиной миллиона клиентов, и на таких масштабах нагрузка распределяется практически равномерно между всеми дисками. Можете данные смарт для дисков скачать и проверить, все опубликовано.

xSVPx 21 авг 2024 в 17:40

В смысле "равномерно"?

Год назад у них была одна емкость всех дисков, а теперь что, такая же ? Данных "перемололи" больше, обьем диска (средний) больше, отказов больше.

Пока неясно больше отказов на единицу полезной работы или нет...

ky0 21 авг 2024 в 17:50

В статье, точнее, прямо в заголовке есть тезис - "диски стали менее надёжными". Кем высказывается этот тезис, равномерная ли у них нагрузка на разные диски - вообще не важно. Важна методика подсчёта.

Мой контртезис - "мерять надёжность дисков продолжительностью срока службы в вакууме некорректно". Возможно, диски действительно стали менее надёжными - но чтобы подтвердить это, нужна дополнительная информация, которой в статье нету.

rPman 22 авг 2024 в 05:29

Вы издеваетесь? Там есть ссылка на гигабайтовые дампы в т.ч. с полями из smart, конкретно вас должны интересовать 241 и 242 поля (lba write/read), вот посмотрел первая же строчка из последнего csv, их raw значения 60957120592 и 1217526119807 и там все такие

N-Cube 22 авг 2024 в 07:31

В оригинале все есть, а ваши фантазии просто бессмысленные. Откройте данные смарт, вместо сочинения глупостей.

N-Cube 21 авг 2024 в 14:55

Это бред сивой кобылы, попросту говоря - интерфейсы не изменились, сервера не изменились, с какой стати и каким способом с новых дисков, установленных на замену в старую конфигурацию, может считываться кратно больше информации?

pnetmon 21 авг 2024 в 17:31

Сервера не изменились, вот их использование могло измениться.

Можно поставить диск для постоянных обращений, а можно поставить диск большого объема для хранения бэкапов на которые пишут эпизодически в течении дня, притом время работы у них может быть одинаково, а вот сама специфика разная.

У них в таблице три модели дисков у которых средний срок меньше 7 месяцев с очень разной надежностью 0,00% 1,37% 4,15%

Как и интересно выглядят Сигейты вверху модель маленькое количество 0,00%, а чуть ниже модель за 30 тысяч уже 0.83%

N-Cube 22 авг 2024 в 07:29

Четверть миллиона дисков, полмиллиона клиентов, все дисковые операции перемешиваются как можно равномернее в облачном сервисе, чтобы уменьшить износ оборудования и увеличить отзывчивость - а вы про какие-то отдельные диски для бекапов фантазируете. Вы думаете, что у облачных провайдеров сотня тысяч сотрудников бегает и четверть миллиона дисков для полмиллиона клиентов перетыкают руками так быстро, что пользователи ничего не замечают?:)

xSVPx 21 авг 2024 в 17:42

Почему вы решили, что конфигурация старая ? Раньше в этих отчетах были диски по 2-4тб, теперь по 10-12... Если три диска заменили одним и afr увеличился на 40%, то это лучше или хуже :)? Надежней стало или ненадежней ?

N-Cube 22 авг 2024 в 07:26

Что за ерунда - вы как в 5м рейде замените три диска на один?… А скорость чтения и записи данных от замены дисков не меняется, для рейдов зависит от интерфейса подключения и производительности контроллера. В итоге, количество записанной и прочитанной информации на один диск зависит только от того, куда его воткнут, и никак не зависит от объема диска.

xSVPx 22 авг 2024 в 08:30

Сколько данных было считано и записано со всех дисков за предыдущие полгода ? Сколько за последние ?

Если это отношение скажем 1к2, а показатель отказов ,конкретных дисков увеличился на 20%, то надежность увеличилась или уменьшилась ?

win7_forever 22 авг 2024 в 05:43

С уменьшением техпроцесса SSD тоже здоровей не становятся.

AlexM2001 22 авг 2024 в 19:23

SSD как средство хранения ответственных данных, это для смелых)

Если умирает, то практически гарантированно информацию теряет.

В отличии от HDD. Где есть шанс частично данные восстановить.

xSVPx 23 авг 2024 в 18:13

Когда диск умирает лучше бы данные из бэкапов восстанавливать. А частично восстановленные часто вообще не нужны.

Если данные ответственные, то должно быть много копий. Не две. И не три.

AlexM2001 23 авг 2024 в 23:14

Бекапы конечно хорошо. Когда они есть)))

Когда можно частично восстановить данные, уже неплохо.

Из тысячи фотографий например. Если 900 спасти удастся , уже очень хорошо.

Свадебные фотографы не дадут соврать)

xSVPx 24 авг 2024 в 22:23

Ни один из десятков человек обращавшихся ко мне за спасением "очень нужных фоток" не захотел специализированной конторе заплатить за диагностику. Ни один.

В сказки о том, как кто-то дорожит фотками я... не верю.

AlexM2001 24 авг 2024 в 22:28

Не надо верить)))

Просто тот кто действительно дорожит фотографиями, не хранит фотографии в единственном экземпляре. На самом дешёвом носителе)

rombell 9 сен 2024 в 18:03

ну я заплатил. Восстановить не смогли, в итоге обошлось мне в стоимость донора + немного за работу взяли, примерно 1/6 полной стоимости. Больше не обращаюсь, так как простое могу и сам, ну и бэкапы делаю ожесточённо

uranik 22 авг 2024 в 12:57

Да, прошли те времена когда я без рейдов дома себя спокойно чувствовал.

vvzvlad 22 авг 2024 в 15:17

В те времена, когда я себя спокойно чувствовал без рейдов, я был молодым и глупым. Две потери данных спустя это исправилось.

Didimus 23 авг 2024 в 08:00

Рейд дома это только лишние точки отказа. Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.

Дома нужен холодный бэкап и онлайн-бэкап в облако. Если вам это не подходит, то вы не дома, а на производстве.

vvzvlad 23 авг 2024 в 13:12

Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.

Ага, а можно подумать, что когда умирает единственный диск, данные вытаскиваются гораздо проще? Кроме того, это какое-то странное зеркало, если из него данные с трудом вытаскиваются. Может вы его готовить не умеете?

Рейд не заменяет бекапа и бекап не заменяет рейда. Рейд — это способ пережить отказ оборудования. Если у меня разваливается зеркало, я даже не замечаю перебоев кроме сообщения на почте о деградации рейда и просто могу заменить диск.

Didimus 23 авг 2024 в 13:28

Так сломался не диск, а массив. Предлагалось только пересобрать его, тк degraded

xSVPx 23 авг 2024 в 18:15

Погодите, но ведь mirror по факту два одинаковых диска, любой из которых можно из рейда вынуть, куда-то воткнуть и он будет работать...

Didimus 23 авг 2024 в 20:02

Нет, так не работает. Это только на дорогих промышленных контроллерах так, а на домашних это реализуется драйверами контроллера обычно. Он может просто так однажды сказать "я развалился" и больше ничего сделать нельзя, так как диск размечен нестандартно. Приходится снимать файлы с помощью PC-3000, например

uranik 23 авг 2024 в 20:19

На домашних обычно хватает программного рейда 1, что на винде, что на линуксе, чтобы он развалился и не собрался это очень удивительно.

Didimus 24 авг 2024 в 04:43

А виндоус сможет загрузиться с такой конфигурации?

xSVPx 24 авг 2024 в 08:54

Ктож копию дистрибутива будет на дорогостоящих продублированных массивах хранить ? Аптайм дома не нужен...

xSVPx 23 авг 2024 в 21:28

Так зачем вам аппаратный то ? Программный же можно сделать.

Что-то пропиетарное - это да "грусть-тоска" :(.

xSVPx 24 авг 2024 в 22:22

Проверил десять минут назад. Диск от omv из mirrora переставил в бэкап машину и спокойно там примонтировал....

andrewzhuk 22 авг 2024 в 14:31

Похоже западные коллеги просто они наняли консалтинговую компанию (любителей квадрантов), чтобы оправдать определенные акценты в закупках. В целом в комбинации с ценой и обьемами поставок надо смотреть это все

SunTechnik 22 авг 2024 в 20:42

> Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604)

А Seagate на 12ТВ чем лучше? Его AFR вообще больше 11.

barloc 24 авг 2024 в 15:50

Кажется, что редактура немножко подхалтурила со статьей :) И Даша иногда вдруг о себе говорит в мужском роде :)

ksv_ksv 23 авг 2024 в 05:49

Имел небольшой опыт (в плане количества дисков) но длительный по времени использований HDD в системах видеонаблюдения примерно с середины 2000-х. На начальном этапе из опыта применения несомненно лидировали диски Seagate, количество отказов было ну очень небольшим, среднее время на отказ точно было не меньше 5-и лет. В какой-то момент, примерно году в 2013-2014 качество дисков просто сильно упала, в том плане, что при единицах закупленных дисков, часть менялось еще на этапе гарантийного срока. В это время как раз ушла Fujitsu (вот чьи диски вообще не использовал). Возможно падение качества связано с этим, возможно с цунами, когда часть производств вообще закрылась на несколько месяцев, гадать тут сложно. В этот момент стал использовать WDC диски. К удивлению качество оказалось на уровне, ну и использовались модели с 5400 об/с. Кстати, в третьем графике модели WDC вообще не представлены, что может говорить о некоторой предвзятости статьи.

Касательно модели Seagate c 0% процентом отказа, по моему скромному мнению, выборка немного нерепрезантитвна (100+ единиц) и срок менее 2-х лет. Единичный отказ приведет к резкому скачку данной статистики. Так что надо быть внимательным к деталям, и сразу станет понятно, кто оплачивает статистику)

Didimus 23 авг 2024 в 13:36

Судя по статье, сигейи самые проблемные

AlexM2001 23 авг 2024 в 23:16

Никогда такого не было, и вот снова (С)

Sergey_datex 24 авг 2024 в 17:40

Wdc не делают дисеи емче 8 тер. У них была женидьба с хгст, теперь все что выше 8 тер под брендами вд/хгст - внутри хгст. Гелий, как правило.

AlexM2001 24 авг 2024 в 22:30

Насчёт гелия...

Вы жалуетесь? Или хвалитесь? (С)

Sergey_datex 25 авг 2024 в 14:01

Иногда это нужно знать покупающему гелиевый диск, осознавая последствия по долговечности (гелий текуч и не может долго находиться в диске) и по перегреву (гелиевая атмосфера там для возможности впихнуть много блинов, 5-8 легко.

AlexM2001 7 сен 2024 в 04:35

Дык эта...(С)

Гелий это совсем не для повышения надёжности hard.

barloc 24 авг 2024 в 15:52

Интересно. Выходит, что несмотря на повышение ёмкости, для того чтобы делать такие же надёжные системы теперь требуется больше дисков. То есть их ёмкость надо делить на то, во сколько раз хуже стали диски. Сигейт с 12% вообще за гранью.

xSVPx 25 авг 2024 в 16:04

Благодаря...

Но больше их не требуется. Если диски стали двойной емкости, а надежность уменьшилась на 20% - выгода есть. Да и не учитывает никто надежность дисков в конкретных массивах, они обычно сделаны так, чтобы при выходе из строя пары дисков проблем не было.

Тут еще важно понимать что такое "диск вышел из строя". Обычно об этом недетские звоночки в смарте появляются, т.е. в большинстве случаев вы его успеете штатно из массива изъять.

12% в год, это условно 100% за пять-шесть лет.... Помнится ни один dtla и двух лет не протянул. А работают ли в дц диски сильно больше 5 лет?

Sergey_datex 24 авг 2024 в 17:41

Даша пропустила двузначный афр у сигейта 12 тер. Антифаворит

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий