Комментарии 291
К слову про адата. Уже лет так примерно 6 использую флэшку адата на 32 гига как временный кэш для торрентов. Жива до сих пор, никаких ошибок чтения/записи нет.
При этом, две флэшки кингстон померли в течение полугода после покупки.
Зеркалирование диска с важными данными теперь считается игрушкой для богатых?
Зеркалирование SSD на домашнем компе? Да. И раньше считалось, и теперь.
А почему не смотрите в сторону облачных хранилищ?
Сейчас они стоят копейки, а стабильности и простоты добавляют в разы больше. Как правило всегда есть "еще один ноутбук", "вон тот старенький ПиСи", "простенький смартфон" и тд, которые позволят получить доступ к необходимым данным "прямо здесь и сейчас".
Ограничений такого подхода, на мой взгляд, два:
- хреновый интернет (привет, Камчатка!),
- большие объемы (конвертация видео 4к и тд)
IMHO, RAID в текущих реалиях нужен только для машинок, которые должны быть с максимальной доступностью — сервера (но тут рейда недостаточно — должны быть более сложные системы отказоустойчивости), регистраторы систем видеонаблюдения и тд. Явно речь идет не про домашнюю машинку.
Максимум, скидываю копию, раз в пятилетку, на редко используемый винт.
Без феншуя. На SSD С — система и рабочее ПО, для быстрого старта. На диске H — всякий одноразовый хлам и торренты, которые надо посмотреть, пощупать и… удалить в последствии.
А вот на дисках между ними. Например диск D — реально рабочий (кстати на него спроецированы папки рабочего стола и прочии библиотеки форточек). Диск Е — древнейший архив (если копнуть на нём, то там файлики прошлого века).
Ну а если ближе к топику, то меня тоже тревожит вопрос не жданчиков со стороны SSD. За несколько пара штук умерла. На совсем. И если с HDD есть хоть какие-то шансы на восстановление инфы, то в случае SSD эти шансы стремятся к нулю.
А вот когда такая потребность появится, то будут и RAIDы, и регулярные автоматические локальные бэкапы, и удаленные и облачные. И резервирование провайдеров и ЗИПы не из б/у дисков, а из новья. И контроль S.M.A.R.T. где это возможно и фоновая верификация…
К счастью использовать в быту дисковые полки и прочее перечисленное вами, э… несколько излишне.
Но как это не странно, именно б/у диски у меня обладают большей надёжностью, по сравнению с новьём. Старьё уже к 10 годам работы приближается, а новые — от силы пару-тройку лет выживают. А на примере новых SSD (и примкнувших к ним разовых внешних винтов), и года не выживают, а то и полугода.
Небольшое дополнение.
Насколько помню, в статистике, по-моему от Backblaze, было такое, что у новых дисков где-то до полутора-двух лет больше отказов, чем после. Т.е. самые надежные — это те, которые использовались полтора-два года и выжили.
https://ru.wikipedia.org/wiki/Интенсивность_отказов
Но тут есть нюанс…
Чтобы использовать такие диски-ветераны, они должны сначала поработать где-нибудь в «тренировочном лагере» годика 2. Причем, под адекватными нагрузками. Только после чего их можно будет ставить на боевой сервер.
Т.е. у них на эти самые 2 года уменьшится ресурс, не говоря уже о гарантии.
Т.к. гарантия в большинстве случаев для SSD составляет 60 месяцев, то такие меры можно было бы считать оправданными, если бы выход из строя в процессе «тренировки» превышал 40%.
Но что-то мне подсказывает, что эта цифра окажется явно завышенной.
Поэтому, может быть для снижения риска геморроя это и имеет смысл, но с экономической точки зрения впустую профукать 2 года жизни накопителя явно невыгодно.
Но как быть с потерей суток, если например это был дедлайн по крупному заказу?
Никак. Домашний RAID эту проблему уж точно не решит. Какая разница, где у вас дома хранятся данные, на соло-диске или в массиве, если вы не можете ни обновления от коллег получить, ни отправить, ни отдеплоить.
Если у вас есть такие важные заказы, резервировать надо не диски, а провайдеров. Чтобы было два разных городских кабеля.
А насчёт второго канала — да это правильно. Только тут надо вести речь например о сотовой связи или спутнике. Я упоминал про обрыв входа в город.
А вот облачное хранение остановит всю работу на сутки.
Я, честно говоря, слабо представляю, зачем вообще можно работать в облаке, не имея локальных копий, если вы работаете с компьютера, а не с планшета или телефона. Я этот сценарий даже не рассматриваю :)
Я упоминал про обрыв входа в город.
Так ведь у города нет какого-го центрального городского входа. Все входы принадлежат каким-то провайдерам. Сколько первичных провайдеров, столько и входов. Если провайдер в городе один, тогда, естественно, обрыв его линии приводит к общему шатдауну.
Если мы говорим про небольшой городок тыщ на 30 жителей, то там действительно может быть один первичный провайдер с одним кабелем. Города-миллионники же соединены с внешним миром многими десятками независимых каналов. Причем шатдауны каналов происходят постоянно, и по внешним причинам, и для планового обслуживания. Пользователи этого просто не замечают, т.к. маршрутизация переключается на другие.
когда у меня дома развалился этот самый RAID-1 по причине смерти одного дискаКакой-то у вас RAID1 неправильный.
А в чём смысл использования встроенки?
По-моему, использовать имеющуюся аппаратную фичу как раз самый очевидный вариант. Мне вообще не было ни капельки интересно выяснять на практике, почувствую ли я разницу на каких-то своих задачах между программным и аппаратным рейдом. Я начал играться с компьютером в 1995-м году, и к 2008-му наигрался вдоволь, у меня уже не было желания экспериментировать с настройками дисков и софтовыми приблудами. Я предпочитал, чтобы он просто делал своё дело.
Ну и про fakeraid забывать тоже не стоит, бывало всякое…
Флешки кингстона уходили только так. Самые надежные флешки, что попадались мне одна серия transcend jetflash. Радовали и ценой и производительностью и стойкостью, было штук 5, до сих пор работают две, остальные просто растерялись
Купил как-то SD-Card Transcend 16 Gb дочке в читалку. Вставил в слот, читалка увидела ее, сказала, что надо отформатировать, после чего выдала ошибку. И видит у нее только несколько мегов. В компьютере — то же самое. Попытки восстановления всякими утилитами ни к чему хорошему не привели. Сходил в магазин (благо он в моем доме же располагался) — заменили. Принес домой, вставил в комп — тоже самое. После того, как я пришел возвращать третью, продавцы дали мне тоже Transcend, но не в «зеленой упаковке, а в синей»… Говорят, партия была бракованная.
Хотя я сильно подозреваю, что это был просто контрафакт.
много ли у Вас кингстонов или м2 самсунгов, так внезапно уходило в страну вечной охоты?
Ну не сильно внезапно, я успел снять данные пока он был в r/o, до того как он окирпичился, но таки мой первый ssd, Kingston SNV425 64GB отработал лишь чуть больше года.
Все проблемы с дисками решаются бэкапом и гарантией производителя.
Все проблемы с излишними беспокойствами решаются пивом (если мы говорим про IT).
Все проблемы с дисками решаются бэкапом и гарантией производителя.
бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.
И так как неизвестно, из-за чего он вышел из строя, то в ближайшее время могут и другие диски туда же отправиться.
бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.
Это всего лишь вопрос бюджета. Те, у кого есть потребность в обеспечении бесперебойной работы при отказах железа, и есть на это финансы, про дисковые массивы с горячей заменой дисков, как правило, слышали.
И так как неизвестно, из-за чего он вышел из строя, то в ближайшее время могут и другие диски туда же отправиться.
А во времена HDD это было известно? IMHO, у людей просто была иллюзия на эту тему, которая приводила к фатальному нежеланию делать бэкапы и бесконечным форумным срачам на темы «дятлы против рыб» (если вы понимаете, о чём я) на основании душещипательных историй эксплуатации одиночных экземпляров.
Ситуация с SSD отличается только тем, что количество иллюзий стало меньше. А реальная статистика уже давно посчитана производителями и выражена в виде сроков гарантии. Ориентируйтесь на эти сроки, делайте бекапы, имейте в наличии нужное количество запасного железа и будет вам счастье. В случае домашнего использования, пункт про запасное железо можно исключить в пользу близлежащего магазина.
Ситуация с SSD отличается только тем, что количество иллюзий стало меньше.
Иллюзий стало больше, они читают рекламу и видят что движущихся частей нету, ломатся нечему, ресур такой что можено 5 лет каждый день весь SSD переписывать и даже если он он умрет то просто перейдёт в режим только для чтения, и все данные останутся целы.
И объяснить им что это большая флешка(кои мрут не так и редко) бесполезно, пока на грабли не наступят не верят.
За всю свою жизнь, включая 90-е, я всего дважды сталкивался с выходом HDD из строя. Именно мгновенным выходом, а не ситуацией, когда диск начинает постепенно «сыпаться» и этот процесс растягивается на недели.
Тогда как с дохлыми SSD только за последние 3 года сталкивался 4 раза.
Причём, что самое удивительное, причины сдыхания SSD примерно те же, что и у HDD — дохнет как правило не сам чип памяти, а тухлый контроллер или дерьмово пропаянный разъём. Такое ощущение, что в случае SSD в качестве контроллеров используются отбракованные отходы производства. Не знаю, чем ещё объяснить такой чудовищный процент явного брака.
За всю свою жизнь, включая 90-е, я всего дважды сталкивался с выходом HDD из строя. Именно мгновенным выходом, а не ситуацией, когда диск начинает постепенно «сыпаться» и этот процесс растягивается на недели.
Тогда как с дохлыми SSD только за последние 3 года сталкивался 4 раза.
А я за свою жизнь сталкивался с множеством выходов HDD из строя, а вот ни одного умершего у меня SSD не было.
И что это нам говорит? А говорит это нам то, что привычка домашних пользователей делать всеобъемлющие выводы по единичным экземплярам, бывшим у них в эксплуатации, является
Или может быть я трагически ошибаюсь и вы обладаете достоверной статистикой по, хотя бы, сотням экземпляров HDD и SSD? Правда ваши полные драматизма голословные заявления заставляют меня в этом сомневаться.
бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.
RAID, корзина с "горячей" заменой и ЗИП обоснованных размеров "спасут отца русской демократии".
Даже в ноутбуке.
Системный диск заменяется из ЗИПа, после чего быстро накатывается образ.
Небольшие по объему данные быстро восстанавливаюься из бэкапа.
Объемные данные на внешнем устройстве с RAID1. Второе такое же устройство и диски к нему в ЗИПе
Как-то так.
Вы выше пишете про RAID-1 и корзину с hot-plug. Я написал, что для ноутбука это, очевидно, не подходит.
У меня было как-то интересное усттойство, которое имело габариты внешнего жесткого диска (чуть больше ноутбучного жесткого диска по длине и ширине и чуть толще двух ноутбучных жестких дисков, уложенных один на другой.
Устройство умело подключаться по USB, умело RAID1 с горячей заменой (две дверки с простыми, но достаточно надежными защелками.
Что мне особо нравилось, диск, работающий в RAID1 можно было вынуть и полключить к компьютеру через SATA или простой USB переходник, и он нормально воспринимался, поскольку не имел в разметке извращений, свойственных дискам, крутящимся во мноших других RAID контроллерах.
Я его как раз использовал с ноутбуком в качестве носителя для объемных данных.
Восстановление системы с образа и пользовательских данных из бэкапа на SSD никогда не занимало очень много времени (не больше часа на все).
Еще вспомнился один интересный ноутбук, которыц довелось видеть живьем (ни производителя, ни модель сейчас не вспомню уже). 17" монстр с аппаратным рэйдом и ттемя слотами для SATA дисков. Горячей замены, правдв, не было, но замена диска заеимала всего пару минут: открутить винт (обычный крест), открыть крышку, заменить диск, поставить крышку на место и закрутить. Если экстремальное использование не ожидается, винт на крыоке можно не закручивать. Защелка нормально держит.
Это, кстати, плохо, что разметка была обычной и устройство читалось без софта специального. Ибо это означает, что контроллер не хранил контрольных сумм. Тогда в ситуации, когда он внезапно обнаруживает, что данные на дисках отличаются, ему только остаётся сказать об ошибке и отключиться — и пусть уже пользователь гадает, какая же из копий верная. Правильный контроллер делает нестандартную разметку, в которой помимо самих данных хранит ещё и контрольные суммы блоков. Тогда при обнаружении разных данных на диске он может проверить контрольную сумму и сказать "ребята, вот этот диск хороший, а другой какую-то фигню стал содержать, поменяйте именно его".
Ну как-то это устройство определяло, какой диск объявить поврежденным в случае сбоя и с какого диска копировать данные при замене диска в устройстве, когда вставлялся диск, ранее уже использовавшийся в нем и не отформатированный.
Подозреваю, что всякую служебку, включая контрольные суммы, оно просто хранило в областях дисков, не распределенных под разделы.
Подозреваю также, что оно очень неэффективно (не зря же в серьезных контроллерах всегда извращенная разметка), но зато такой приятный бонус.
У меня не было в запасе второго такого же, и когда устройство померло, это позволило без лишних трат и ухищрений получить свои данные.
это три разноуровневые вещи, никак друг от друга не зависящие
про чексуммы обычно говорят в контексте RAID5(6)
Для IBM — www.ibm.com/support/knowledgecenter/en/SSFKCN_4.1.0/com.ibm.cluster.gpfs.v4r1.gpfs200.doc/bl1adv_introe2echecksum.htm
Для HP — Data integrity checking
In addition to hardware fault tolerance, all HP 3PAR StoreServ Storage systems offer automated end-to-end error checking during the data frames’ journey through the HP 3PAR StoreServ Storage array to the disk devices to help ensure data integrity in support of Tier-1 resilience. In addition to this HP 3PAR Thin Express ASIC comes with the Persistent Checksum feature that ensures end-to-end data protection, from host HBA to physical drives. (Взято из pdfs.semanticscholar.org/4748/5777672b6c0b548b1c9a2984a091b66abcbb.pdf )
Есть аналогичное и у прочих.
особенно в ноутбукеОт ноутбука зависит.
У нас на старом ноуте было 2 сата3 полноценных и один сата2 на м.2, плюс можно было двд диск вынуть получить еще один сата2 полноценный.
На нынешних 1 слот нвме и один слот сата3 обычный.
юсб3.1 вполне хватает для быстрых инкриментальных бакапов.
это и будет hotswap для ноутбука
С заменой Вертексов на Кингстоны и Самсунги проблемы пропали. Да и AData по сравнению с Вертексами вполне нормально работают.
А один Вертекс упорно не видится ни одним RAID-контроллером. Т.е. он прекрасно работает, подключенным к SATA-разъему, а встроенными в мамки или отдельными SAS-контроллерами совсем не воспринимается. И так с самого изнова.
Работает уже хз сколько, здоровье 92% поглядел только что, винт 120гб, куплен я уже и не знаю когда, лет семь назад что ли, а может быть уже и больше…
Когда ж ты сдохнешь-то зараза!!! Пока не сдохнет, я ж новый винт брать не буду)))
Так же в наличии разнообразный парк мошын, во всех без исключения воткнуты интелы и самсунги. Отказов ноль, проблем ноль.
До меня стояли какие-то убогие ссд-шки — все повылетали, поголовно все. А вполне себе живые и тоже всякие совсем ненужные hdd-шки я вытащил и снес оптом в кантору, торгующую б/у. Такие дела)
Решил перезагрузить. После перезагрузки SSD не определяется.
Как будто ждал пока я не сделаю бэкап :)
Как будто ждал пока я не сделаю бэкап :)Возможно.
Бакап долгая и грузящая операция, идет нагрев диска, старые диски не умели тротлить при нагревании, что приводило к проблемам. В основном это касалось не энтерпрайз дисков, которые на такое не особенно были расчитаны.
Современные ссд диски почти все умеют тротлить, да и тех.процесс стал меньше с энергопотреблением, поэтому та проблема почти ушла.
Кстати, SSD никаким образом не более защищены от ранних производственных дефектов, чем остальные электронные устройства, и утверждение «теоретически такого происходить не должно» в корне неверно. Но да, вообще-то я не припоминаю таких сбоев контроллеров жестких дисков (кроме багов, как в Seagate Barracuda 11, если не изменяет память).
p.s. Кстати, в домашнем ПК, SSD никогда не умрет по причине износа ячеек, то есть все смерти, с точки зрения SMART, будут внезапны и необъяснимы.
Кстати, в домашнем ПК, SSD никогда не умрет по причине износа ячеек
Мой RevoDrive с вами несогласен 8) Умер правда 1 из 4 массивов но таки пришлось выкинуть. Держался достойно, лет 6.
ЗЫ самый ненадежный компонент компьютера по той же статистике это видеокарта
а SSD, две планки памяти и несколько материнок уже сдохли.
Один раз планка памяти нам даже новая пришла дохлая. Закупили 4 планки по 16 Gb для расширения сервера… Вставили, а он не включается. Очко слегка взыграло (мало ли, что там в мамке могло треснуть, когда их вставляли), но начали разбираться. Выяснили, что с тремя запускается, а с одной — никак. Кое-как распределили память по слотам, чтобы на каждый процессор было поровну и отправили эту планку на замену.
А так да… От времени. Работает нормально, вдруг начинает вываливаться в BSOD или перестает загружаться. Память поменяли — снова дышит.
Но чаще — от кривых ручек. Когда криво в слот вставляют и питание подают. Хорошо, если при этом она ничего больше за собой не утянет. На YouTube видел ролик по ремонту, когда в результате криворукой замены памяти половину мамки вышибло.
по браку — могу себе представить, по выходу из строя — не верю
Но да, вообще-то я не припоминаю таких сбоев контроллеров жестких дисков (кроме багов, как в Seagate Barracuda 11, если не изменяет память)
Я припоминаю. Проблемы IBM 75GXP/60GXP (тех самых «дятлов»), не связанные с контроллером, помнят многие, а вот не менее эпичный фэйл с отвалом контроллера из-за эрозии контактных площадок контроллера после перехода на безсвинцовые припои в последующих сериях жёстких дисков IBM, как-то подзабыли.
Проблемы серий IC на фоне эпического полета дятлов как-то не вспоминаются. Ну были, ну вроде работали, дохли не больше остальных… Да и вообще их очень скоро перепродали после этого.
А вот отвал контроллеров у Fujitsu MPG и частично MPF — вот это было вполне сравнимо с дятлами.
Ну, перегибаете. Все сложно. Повторюсь, что каждый производитель застал черную полосу
- quantum (se, например, был очень надёжной моделью, а вот потом было буэ) — ушел к Макстору
- hitachi даже после того как приобрели подразделение ibm — все равно их DeskStar страдали той же "контактной" болезнью. Пофиксил где-то линеек через пять. Хотя накопители реально были быстрые.
- seagate barracuda 7200.7, которые переставили определяться из-за бага в фирмваре (?). Но я не слышал, чтобы у самой компании были серьезные проблемы из-за этого
- макстор — я вообще удачных моделей не помню
Что интересно — после злополучной линейки Fujitsu MPG они избавились только от десктопных накопителей. Серверные линейки и ноутбучные существовали до недавнего времени, пока они не слились с Hitachi. Мне эти фуджи очень нравились. Реально надёжные были. - western эпохи до SATA (~20GB накопители). Ломались только так. Самое стремное, что у вестерна были линейки, который по сути накопители IBM, но под лого WD. Дурдом
Quantum'ы, сколько я их помню, дохли всегда. У меня долго валялись эти серебристые трупики по всем углам, пока у коллеги не завелся знакомый, использующий магниты из хардов для улучшения характеристик дешевых гитарных звукоснимателей.
Когда Quantum был съеден Макстором, зараза перешла по наследству: до того были диски как диски, ничего особенного ни в какую сторону — после стало сыпучее и ломучее оно.
Потом Макстор, в свою очередь, оказался съеден Seagate'ом, с предсказуемым результатом. После знаменитой мухи це-це они ненадолго выправились, но потом надежность дисков окончательно покатилась под откос, зато появилась куча маркетинга: IronWolf, SkyHawk и прочий зоопарк.
И конечно, новый анимированный логотип (с) — помните статью в их блоге?
Hitachi — а куда бы они делись, когда купили завод с технологией?
У меня вообще ощущение, что надо смотреть не на торговую марку, а на конкретную производственную линию.
Но говорят, в итоге HGST стали весьма надежны. Я, правда, уже не понимаю, они сейчас Хитачи, ВД или сами по себе.
И в итоге пришлось остановиться на WD, которые были очень себе не айс во времена первых гигабайтов, но потом как-то улучшались, улучшались — а может, конкуренты ухудшались один за одним…
К сожалению, не могу согласиться полностью
- как ниже заметили, дохли lct-подобные квантумы. Более ранние вполне были нормальными. На самом деле, то время было достаточно сложным, т.к. многие пользователи покупали откровенно дерьмовые блоки питания (типа codegen), так что это тоже могло быть фактором отказа. И, повторюсь, что более ранние серии квантумов (типа se) были вообще неубиваемыми
- после покупки Макстором Квантума какое-то время наряду с оригинальными накопителями Макстор, под лейблом Макстор продавались бывшие квантумовские разработки. Они тоже страдали, если мне память не изменяет, той же lct-подобной болячкой. Потом линейки объединились (т.е. по сути пошло развитие максторовской линейки, но с учётом наработок квантумы). Но это продолжилось недолго — до покупки Макстора Сигейтом
- кстати, что ещё у квантума было хорошо — так это их энтерпрайз линейка Atlas. Вполне нормальные накопители были. Они даже после перехода под эгиду Макстора так же производились и новый владелец разрабатывал эту линейку
- у Хитачи до покупки подразделения IBM были вполне нормальные ноутбучные аутентичные накопители ))) Ес-но, их ветку потом после организации HGST свернули в пользу travelstar (ibm'овская разработка).
- по Хитачи под WD вообще воздержусь от комментариев
Почему? Серверные HGST вполне норм, по сути там только название и осталось. Я бы лично сейчас бы брал современные WD Re или HGST Ultrastar, у них MTBF 2М часов, 0.44% AFR и 5 лет гарантия.
К сожалению, не могу согласиться полностьюТак тем и интересно, поскольку личная статистика у каждого своя.
Квантумы на моей практике дохли, начиная с восьмисотмеговых моделей. Кажется, была популярная модель в 850 мегабайт, хотя за давностью лет я уже не уверен. Тогда до покупки макстором было еще, как до луны галсами.
что ещё у квантума было хорошо — так это их энтерпрайз линейка Atlas.С Атласами не общался, только слышал. Но держал в руках два Бигфута — статистически незначимо, но к этим двум претензий не было.
Я еще и Conner Peripherals помню :) Кстати, тоже претензий особо не было, но их, конечно, через меня мало прошло.
Что интересно, одиннадцатых у нас было полно, но «зацецекали» только один-два. Остальные тихо помирали с ростом количества бэдов. Наверное, как раз из-за механики.
Так что, не все из них выходили из строя одинаково быстро. Не удивлюсь, если еще парочка где-то до сих пор крутится.
По поводу «дурдома»: Нужны были на замену сказёвые диски с разъемом Ultra-320 на 15K rpm. Уж не помню, чьи стояли на сервере изначально (может быть даже Caviar или Seagate), а привезли нам HP. Так вот, мы под лупой смотрели на контроллер — разница была только в напечатанных надписях и одной микрушке.
Так что, все они друг у друга всё передирают или перекупают.
«Всю контрабанду делают в Одессе, на Малой Арнаутской улице» ©
Но разница все же была… родные проработали к тому времени лет 7, а привезенные HP вышли из строя через полгода…
разъемом Ultra-320
Небольшая фактическая неточность. Это не тип разъема, а тип протокола. Примерно как UltraATA100, SATA-150, SATA-300 и пр. Разъемы же были стандартные: 68 пин типа D-SUB и 80-пиновый типа MicroCentronics. Скорее всего речь идёт про второй, т.к. именно он был стандартом для корзин с «горячей» заменой
А вот на замену привезли как раз под наклейкой HP. Хотя, HP, как всем известно, сама HDD не производит. И они прослужили очень недолго
Ну, тут возможны варианты. Либо эти HP долго лежали на складе где-то невостребованные лет 10 и их решили в розницу спихнуть. Либо сам сервер комплексно стал загибаться — эти сказёвые скоростные диски сами по себе неслабо грелись, а тут на них почти до 70°C температура стала подниматься, несмотря на кулеры в корзинах.
Но все-таки все эти случаи 15-летней давности и даже больше, исключая проблему с Seagate Barracuda 11.
Проблемы IBM 75GXP/60GXP (тех самых «дятлов»
Небольшое уточнение.
IBM DeskStar 75GXP — это как раз дятлы, по кодировке DTLA в название модели накопителя.
А 60GXP — это уже следующее семейство накопителей, с новой кодировкой моделей (вида IC35L060AVER07, что проще для понимания пользователем), т.е. не «дятлы», хотя страдали частью их проблем. И кодовое название семейства было Ericsson. Следующее — было Vancouver (***AVVA*** в коде модели) и тоже страдали «родовой» болячкой
Интеловские ссд на 512 купленные отнюдь не по 100$ умерли поочередно в течении года от нагрузки простой в виде двух виртуалок на одном хдд. Умерли в виде внезапного пропадания из системы, сначала раз в неделю, потом чаще, чаще и чаще… Уж если интел мрет, то я хз что покупать.
Пацаны говорят, что новые самсунги, вроде pro 950/960, очень хороши.
Использую m2-накопители samsung еще с 8хх-серии.
Самый старый (из моих личных) уже «нарезал» данных на 26Тб при доступной емкости в 233Гб.
На диске ОС, программы, Java/PHP проекты.
Всего по моему кругу общения таких дисков примерно с десяток.
Изумительная производительность, ни у кого никаких проблем пока что не было.
Это лишь частное стечение обстоятельств, на «истину» не претендую.
Уточнение: кажется первый диск был взят в самом начале весны 2016-го, значит скоро три года, как трудится.
Уточнение: кажется первый диск был взят в самом начале весны 2016-го, значит скоро три года, как трудится.
уже «нарезал» данных на 26Тб
Это запись примерно по тридцать гигабайт каждый день. Что вы там с ним делаете? О_о
Пацаны говорят, что новые самсунги, вроде pro 950/960, очень хороши.
Ну как «новые»? Уже больше трех лет прошло с появления 950 pro. Впрочем, ничего особо не поменялось, пусть появились и пошустрее накопители, но весьма ненамного. Так что вполне актуально.
Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. С SSD теоретически такого происходить не должно
Почему? Вы же не забывайте, что у HDD есть два типа проблем — отказ механики и отказ электроники. А у SSD — только отказ электроники. Механика в HDD со всех сторон обвешана мониторингом, и именно поэтому вы можете во многих случаях предугадать наступление гаплыка HDD. Но электроника умирает внезапно, такова её природа. Умирает из-за того, что где-то может быть дефект пайки, где-то агрессивный флюс не смыт, где-то слишком высокие температурные колебания привели к образованию микротрещин и т.д. Некоторые проблемы (особенно последняя) иногда частично обратимые, я прекрасно помню процедуру «восстановления» важных данных с флешки через морозилку. Заморозил, считал несколько файлов, нагрелась, отключилась. Снова заморозил, снова несколько файлов, снова отключилась. И так в течении пары часов, пока не считал всё.
Поэтому ничего в отказах SSD особенного нет, просто механическая подсистема HDD обслуживается электронным супервизором, что создаёт иллюзию большей надёжности. Покупайте для промышленных применений более качественные SSD, только и всего.
Часть электроники HDD тоже с мониторингом. Помнится самсунг жаловался на несовпадение контрольной суммы в кеше.
Device Model: Hitachi HTS541612J9SA00
Serial Number: SB2E04H7JPS1JS
Firmware Version: SBDOC70P
User Capacity: 120 034 123 776 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 1
Local Time is: Mon Dec 31 13:19:14 2018 EET
…
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 062 Pre-fail Always — 0
2 Throughput_Performance 0x0005 100 100 040 Pre-fail Offline — 0
3 Spin_Up_Time 0x0007 238 238 033 Pre-fail Always — 1
4 Start_Stop_Count 0x0012 098 098 000 Old_age Always — 4344
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always — 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always — 0
8 Seek_Time_Performance 0x0005 100 100 040 Pre-fail Offline — 0
9 Power_On_Hours 0x0012 001 001 000 Old_age Always — 78445
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always — 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always — 3802
191 G-Sense_Error_Rate 0x000a 100 100 000 Old_age Always — 0
192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always — 282
193 Load_Cycle_Count 0x0012 001 001 000 Old_age Always — 1335388
194 Temperature_Celsius 0x0002 152 152 000 Old_age Always — 36 (Lifetime Min/Max 13/58)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always — 1
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always — 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline — 0
199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always — 0
223 Load_Retry_Count 0x000a 100 100 000 Old_age Always — 0
Всего 1 «софтовый» бэд при наработке 78445 часов. Неплохо для совсем не серверного железа, а?
Такое я вам то же могу показать с домашней файлопомойки, при чём SSD (самый дешёвый, который тогда удалось найти в магазине)
Model Family: Intel X18-M/X25-M/X25-V G2 SSDs
Device Model: INTEL SSDSA2M040G2GC
Serial Number: CVGB036200AV040NGN
LU WWN Device Id: 5 001517 9593d5447
Firmware Version: 2CV102HD
User Capacity: 40 019 582 464 bytes [40,0 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA/ATAPI-7 T13/1532D revision 1
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Mon Dec 31 15:10:24 2018 MSK
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline — 0
4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline — 0
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always — 7
9 Power_On_Hours 0x0032 100 100 000 Old_age Always — 64868
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always — 352
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always — 263
225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline — 609037
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always — 12138
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always — 0
228 Workload_Minutes 0x0032 100 100 000 Old_age Always — 749225844
232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always — 0
233 Media_Wearout_Indicator 0x0032 084 084 000 Old_age Always — 0
184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always — 0
Только это показатель чего? Да ничего, ибо нагрузки совершенно не те
В личном пользовании были OCZ Agility, Toshiba (не помню какой), Samsung SM951 (OEM аналог 950 PRO), Crucial M550 (два последних до сих пор стоят в ноутбуке, которым пользуюсь по 12 часов в день). Так вот, каждый из них работал по 3 года у меня и ни с одним ничего не произошло. Если не покупать самый дешёвый ширпотреб, есть существенный шанс, что он проработает больше срока гарантии и не принесёт с собой никаких проблем.
Смешно слушать истории «я купил дешёвое говно, а оно сломалось через 2 месяца». Ну так что купил, то и получил.
Hint: из-за идиотизма распределения кодов в smart'е, attribute 194 — это температура у HDD и износ у SSD.
231 | 0xE7 | Temperature | Drive Temperature
231 | 0xE7 | SSD Life Left | Indicates the approximate SSD life left, in terms of
program/erase cycles or Flash blocks currently
available for use.
Я предполагаю, что возможны проблемы с фирмварем.
Дополнительно — использование принципиально разных накопителей в RAID такая себе идея, т.к. в RAID1 мы должны дождаться подтверждения записи от обоих накопителей, иначе — отказ.
И еще. Проблема не в RAID1 как таковом. Уверен, что аналогичные соображения допустимы и для RAID0, RAID5 и прочих уровней.
Для RAID-5 это допустимо, разумеется, тоже. Но найти для него, допустим, 6-7-8 дисков разных производителей или из разных партий уже проблематичнее.
Дополнительно — использование принципиально разных накопителей в RAID такая себе идея, т.к. в RAID1 мы должны дождаться подтверждения записи от обоих накопителей, иначе — отказ.
не вижу как это может помешать использовать различные накопители
Чет напомнило историю пятнадцатилетней давности про DVD-резаки LiteOn, которые все накупили из-за низкой стоимости и невероятной способности читать диски произвольной степени потертости. А потом оказалось, что читаемость достигается выкрученной под максимум мощностью лазера, и все эти резаки радостно сыпятся один за другим через полгода-год интенсивного использования.
У меня был Teac (до сих пор не уверен, как правильно это произносится). Читал только заводские и очень бережно хранимые болванки, записанное им читалось абсолютно везде. Был жив пять лет, продан вместе с системником в 2007 году. Не удивлюсь, если жив до сих пор.
— Ноутбук Sony (премиум сегмент) у меня прожил меньше всех остальных, меньше года. Проблемы с видеокартой и USB, оказавшимися проблемой всей серии. Навороченный «магниевый» корпус у Самсунга — единственный треснувший корпус (отколотые края, крепления дисплея у всех ломаются).
Из строя лайтоны выходи на уровне остальных. Но записывали и читали очень достойно. Лучше заменить через год, чем плохо писать и нельзя прочитать, но два года службы.
К примеру покупка нека (3500 кажется, не помню) привела к необходимости купить читающий привод.
Не могу подтвердить. Жил в то время в общаге, был буквально окружен компами сожителей, потому моя статистика кажется репрезентативной. LiteON слетели у большинства купивших в пределах полутора лет. Точно не одна бракованная партия, так как было много иногородних, которые привозили купленные по месту жительства компы.
Intel 540 пропал из системы, после очередной перезагрузки. В сервисе сказали всё норм. Помогло обновление BIOS на матери. Так что проблема может быть не только в диске. Есть подозрение, что ошибка возникла при заполнении больше половины диска.
Если верить некоторым тестам на живучесть, многие SSD (даже самсунги) спокойно переживают записи за пределами спецификаций, молчат в SMART до последнего, но при этом превышают TBW в несколько раз, а умирают молча и внезапно.
С другой стороны, массовых жалоб о внезапной смерти SSD при обычных декстопных нагрузках вроде как в сети не наблюдается, так что для обычных пользователей ситуация не настолько ужасна, как мне кажется.
Сервера, конечно, это другое дело, но если мониторить TBW (после него заканчивается гарантия) и предупредительно их менять при достижении 95% — то можно избежать проблем в дальнейшем. Мало кто так делает, на самом деле — все ждут пока «сам умрёт», что, безусловно, не может сказаться на надёжности положительно.
но если мониторить TBW
Легко сказать «мониторить»… вывод S.M.A.R.T-параметров отдельных дисков из RAID в гуёвый интерфейс встречал только у RocketRAID-контроллера. И то приходится их мониторить в ручном режиме — автоматический аларм по падению значений у него не предусмотрен. У других RAID-контроллеров можно найти CLI-утилиты для этих целей. Но пользоваться ими реально неудобно.
В том же HighPoint RocketRAID нет нативных средств для работы со S.M.A.R.T. Посмотреть значения параметров в гуёвом интерфейсе можно, но даже скопировать их оттуда нельзя, не говоря об автоматической обработке.
Отсутствует возможность их получения и сторонней утилитой:
https://www.smartmontools.org/wiki/Supported_RAID-Controllers
Вот и приходится периодически смотреть вручную. Но и это реально помогает обнаружить проблемы, которые еще не алармятся.
А HighPoint тоже весьма известный производитель хранилищ данных и контроллеров. И на более новых моделях у них поудобнее все продумано. Но мы этот сервер приобрели еще лет 12 назад. Недавно последний HDD из начальной поставки заменили — как раз по S.M.A.R.T. определили, что сыпаться начинает.
Intel 540s. Помер не совсем внезапно, постепенно росли значения аттрибутов 5 и 9. Вот смарт за час до смерти:
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
5 Reallocated_Sector_Ct -O--CK 100 100 000 - 387
9 Power_On_Hours_and_Msec -O--CK 100 100 000 - 241h+00m+00.000s
12 Power_Cycle_Count -O--CK 100 100 000 - 145
170 Available_Reservd_Space PO--CK 095 095 010 - 0
171 Program_Fail_Count -O--CK 100 100 010 - 0
172 Erase_Fail_Count -O--CK 100 100 010 - 0
174 Unexpect_Power_Loss_Ct -O--CK 100 100 000 - 9
183 SATA_Downshift_Count -O--CK 100 100 000 - 0
184 End-to-End_Error PO--CK 100 100 090 - 0
187 Uncorrectable_Error_Cnt -O--CK 100 100 000 - 199
190 Airflow_Temperature_Cel -O--CK 033 048 000 - 33 (Min/Max 25/48)
192 Power-Off_Retract_Count -O--CK 100 100 000 - 9
199 UDMA_CRC_Error_Count -O--CK 100 100 000 - 0
225 Host_Writes_32MiB -O--CK 100 100 000 - 89514
226 Workld_Media_Wear_Indic -O--CK 100 100 000 - 0
227 Workld_Host_Reads_Perc -O--CK 100 100 000 - 0
228 Workload_Minutes -O--CK 100 100 000 - 0
232 Available_Reservd_Space PO--CK 095 095 010 - 0
233 Media_Wearout_Indicator -O--CK 099 099 000 - 0
241 Total_LBAs_Written -O--CK 100 100 000 - 89514
242 Total_LBAs_Read -O--CK 100 100 000 - 39026
249 NAND_Writes_1GiB -O--CK 100 100 000 - 814
252 Unknown_Attribute -O--CK 100 100 000 - 3
Обратите внимание на TBW и на соотношение 241 и 249. Хост подал на запись 2797 GiB, на диск записано 814 GiB.
Предположу что на диске обнуляли (специально либо был сбой) показатели SMART. При этом часть показателей обнулилась, а часть продолжала отсчитываться с самого начала эксплуатации диска.
На это сильно намекает общее время наработки — всего 214 часов, т.е. 10 дней при круглосуточной работе или месяца 1.5 если часов по 5 в день. За такой срок так ушатать диск практически не реально, если конечно это не постоянный стресс-тест был.
Разница в значениях host writes и nand writes (если они правдивы) скорее всего связана с кэшем (если он там есть, ибо спецификация молчит и об этом тоже), другого логичного объяснения я не вижу.
И конечно же, нельзя исключить что именно конкретный экземпляр оказался дефектным и поэтому прожил так недолго (если это единичный случай), ибо записанные 840GiB даже при размере SSD в 60GB было бы слишком мало, даже для TLC. С другой стороны, раз уж у него гарантия 5 лет, то им явно проще их менять чем делать надёжными.
По своему опыту выбора SSD для серверов скажу, что просто даже не смотрю в сторону тех где в спецификации так мало данных (пусть даже это известный бренд), особенно если не упоминаются TBW и наличие кэша (как DRAM так и SLC). Если выбора нет, то относительно безопасно оценивать количество циклов перезаписи для TLC в районе 250-300, но это имеет смысл только если SMART позволяет мониторить NAND writes.
Иногда случается когда между первым появлением переназначенных секторов и их лавинообразным ростом или даже смертью диска проходит совсем немного времени — поэтому лучше упредить такую ситуацию, если есть возможность. SSD нынче дешевы, не то что 10 лет назад.
Даже если у вас регулярные бэкапы или там нет ничего «такого», представьте ситуацию — после очередной перезагрузки/включения (или в процессе работы) диск вдруг умирает и вам внезапно приходится тратить несколько часов времени (пусть даже «всего» час-два) на поиск замены, восстановление всего что нужно и т.п. — приятного мало, однако. Если же вы на выезде в этот момент — ситуация ещё неприятней, поэтому я лично предпочитаю действовать с упреждением (а на выезд обычно беру с собой запасной ноутбук поменьше, но с копией всего что на первом).
говорит о какой-нибудь механической проблеме, нарушении герметичности, например
вот когда они не справляются или по каким-то другим причинам пыль внутри появляется, начинают бэды появляться
Mad__Max, SMART не обнулялся, но, судя по истории, атрибут 9 рос не каждый час, а когда диск был под нагрузкой (в ноутбуке). Предположу, что связно это с DevSleep. Реальное время работы — с 3 сентября по 10 марта, то есть где-то полгода.
Tangeman, TBW как раз указывает в 241. А в 249 указывает, сколько реально записано было на чипы. Кстати, в 535 серии была проблема из-за DevSleep, когда рос 249 при отсутствии роста 241. А если имелась в виду спецификация, то тоже указывает в описании гарантии. 40 гигов в день в течение 5 лет, что дает 73000 гигов.
Атрибут 5 вырос 21.12 в первый раз. 187 — 26.01. Вот 26.01 уже надо было задуматься о замене. В поддержке сказали, что лечится это обновлением прошивки (кстати, при этом обнуляется 5 атрибут), но этот диск перестал определяться совсем, а другой после обновления тоже стал показывать растущие показатели 5 и 187.
Так что я бы сказал, что дефектная вся 540 серия.
Не очень понял, как наличие кэша может уменьшить 249 атрибут. Может быть, имелось в виду сжатие?
Кэш же (на самом накопителе) может уменьшить реальное количество записей на NAND в случае, если в течение короткого времени перезаписываются одни и те же участки диска (LBA) — если эти перезаписи делаются до того как он сброшен на NAND (а это может быть и несколько секунд), то в итоге на NAND попадают только последние записанные данные. Т.е., к примеру, если кэш сбрасывается раз в 5 секунд (условно), а мы эти 5 секунд будем непрерывно писать только в сектора 0-1023, то в итоге Host writes будет намного больше чем NAND writes. Кэш также может использовать другую стратегию, типа процента «грязных блоков», в этом случае время сброса в NAND (после записи от хоста) может и минут достигать (будь я разработчиком SSD, так бы и сделал, если бы мог гарантировать сброс кэша или его сохранность при выключении питания).
При размере кэша в 512M-1G это вообще может быть очень существенная разница, в зависимости от того что и как пишет на SSD — к примеру, если это что-то типа часто обновляющейся RRD базы размером который помещается в кэш, и софт который в неё пишет не создает новые файлы а переиспользует их (типа кольцевой буфер на диске). Поскольку обычно кэшу всё равно, пишутся данные рандомно или последовательно (важно лишь наличие сектора в нём), то экономия может быть очень существенной.
И насчёт «40 гигов в день в течение 5 лет» — в вашем случае вы умудрились записать больше 800 за 241 час, что в два раза больше чем 40/день. Опять-таки, я могу ошибаться, но 40гиг/день (а не общее TBW) может быть неспроста — вполне возможно что более высокая нагрузка его и убила. Это конечно не механика, но я могу себе представить что у него кэш который расчитан на то что эти самые 40 гиг он ещё может успевать раскидать всё как положено в течение суток (если не спит и не отключен), а если больше то начнёт «задыхаться», повышая степень износа (либо NAND, либо компонент).
Про кэш понятно, спасибо. Мне кажется, это не мой случай, у меня обычный ноутбук.
TBW как раз логично считать от хоста, потому что на это пользователь влияет. Какая ему разница, как пишутся данные? Может быть, производитель реализовал контроллер так, что в ячейки пишется в 2 раза больше информации, чем хост дает, но все ячейки идет с 3-кратным запасом.
Про 241 час уже отвечал:
SMART не обнулялся, но, судя по истории, атрибут 9 рос не каждый час, а когда диск был под нагрузкой (в ноутбуке). Предположу, что связно это с DevSleep. Реальное время работы — с 3 сентября по 10 марта, то есть где-то полгода.
Вот, например, 2 смарта с разницей в месяц, ноут я не выключал почти:
01.10.2017 0:00:00,05
smartctl 6.5 2016-05-07 r4318 [x86_64-w64-mingw32-win8.1] (sf-6.5-1)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
5 Reallocated_Sector_Ct -O--CK 100 100 000 - 0
9 Power_On_Hours_and_Msec -O--CK 100 100 000 - 32
12 Power_Cycle_Count -O--CK 100 100 000 - 11
170 Available_Reservd_Space PO--CK 100 100 010 - 0
171 Program_Fail_Count -O--CK 100 100 010 - 0
172 Erase_Fail_Count -O--CK 100 100 010 - 0
174 Unexpect_Power_Loss_Ct -O--CK 100 100 000 - 1
183 SATA_Downshift_Count -O--CK 100 100 000 - 0
184 End-to-End_Error PO--CK 100 100 090 - 0
187 Uncorrectable_Error_Cnt -O--CK 100 100 000 - 0
190 Airflow_Temperature_Cel -O--CK 035 048 000 - 35 (Min/Max 28/48)
192 Power-Off_Retract_Count -O--CK 100 100 000 - 1
199 UDMA_CRC_Error_Count -O--CK 100 100 000 - 0
225 Host_Writes_32MiB -O--CK 100 100 000 - 19066
226 Workld_Media_Wear_Indic -O--CK 100 100 000 - 0
227 Workld_Host_Reads_Perc -O--CK 100 100 000 - 0
228 Workload_Minutes -O--CK 100 100 000 - 0
232 Available_Reservd_Space PO--CK 100 100 010 - 0
233 Media_Wearout_Indicator -O--CK 100 100 000 - 0
241 Total_LBAs_Written -O--CK 100 100 000 - 19066
242 Total_LBAs_Read -O--CK 100 100 000 - 4496
249 NAND_Writes_1GiB -O--CK 100 100 000 - 317
252 Unknown_Attribute -O--CK 100 100 000 - 1
01.11.2017 0:00:00,09
smartctl 6.5 2016-05-07 r4318 [x86_64-w64-mingw32-win8.1] (sf-6.5-1)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
5 Reallocated_Sector_Ct -O--CK 100 100 000 - 0
9 Power_On_Hours_and_Msec -O--CK 100 100 000 - 66
12 Power_Cycle_Count -O--CK 100 100 000 - 45
170 Available_Reservd_Space PO--CK 100 100 010 - 0
171 Program_Fail_Count -O--CK 100 100 010 - 0
172 Erase_Fail_Count -O--CK 100 100 010 - 0
174 Unexpect_Power_Loss_Ct -O--CK 100 100 000 - 1
183 SATA_Downshift_Count -O--CK 100 100 000 - 0
184 End-to-End_Error PO--CK 100 100 090 - 0
187 Uncorrectable_Error_Cnt -O--CK 100 100 000 - 0
190 Airflow_Temperature_Cel -O--CK 034 048 000 - 34 (Min/Max 27/48)
192 Power-Off_Retract_Count -O--CK 100 100 000 - 1
199 UDMA_CRC_Error_Count -O--CK 100 100 000 - 0
225 Host_Writes_32MiB -O--CK 100 100 000 - 30290
226 Workld_Media_Wear_Indic -O--CK 100 100 000 - 0
227 Workld_Host_Reads_Perc -O--CK 100 100 000 - 0
228 Workload_Minutes -O--CK 100 100 000 - 0
232 Available_Reservd_Space PO--CK 100 100 010 - 0
233 Media_Wearout_Indicator -O--CK 100 100 000 - 0
241 Total_LBAs_Written -O--CK 100 100 000 - 30290
242 Total_LBAs_Read -O--CK 100 100 000 - 8288
249 NAND_Writes_1GiB -O--CK 100 100 000 - 391
252 Unknown_Attribute -O--CK 100 100 000 - 1
для меня сигналом к замене послужил бы первый перераспределенный сектор или первое использование резервной области
даже на харде на первые пару бэдов можно забить, просто усилив бдительность
на ссдшке надо не на realloc смотреть, а на оставшийся объём резерва
Опять же тесты без выключения питания. А как поведут себя при выключении на пару месяцев или больше? Таких тестов нет, а по слухам дохнут при выключении питания.
3dnews.ru/938764/page-3.html
В результате они выяснили:
* Какие накопители самые надёжные
* Как они умирают: какие-то просто перестают определяться, какие-то определяются, но отдают данные с ошибками, какие-то отлично продолжают жить в режиме Read-Only
* Насколько плавно и предсказуемо они деградируют (в большинстве случаев очень плохо)
* Какие прошивки с багами
В общем Must-Read перед покупкой нового.
А флэш изнашивается не в виде — работаем, работаем, опс умерли и больше не работаем. А в виде постепенной непрерывной деградации, ускоряющей утекание внесенного в ячейку заряда (конкретные цифры с потолка, но общая зависимость такая):
1 — новая ячека — записанные данные нормально сохранятся в течении нескольких лет после записи
2 — после 500 циклов — данные хранятся год
3 — после 1500 циклов — данные хранятся неск. месяцев
4 — после 3000 циклов — данные хранятся неделю
5 — после 5000 циклов — данные хранятся 1 день
6 — после 10 000 циклов — данные хранятся 1 час
7 — после 20 000 циклов — данные еще записываются, но уже не хранятся (ошибки чтения даже сразу после записи)
8 — после 30 000 циклов — данные невозможно даже записать, полный отказ
Плюс небольшая деградации от времени, когда диск в эксплуатации годы, а не недели — пару месяцев под стресс-тестом.
Вот такой тест определяет ресурс до деградации диска до уровня где-то между п. 6 и 7.
А большинству пользователей интересно что-то ближе к п.3, в крайнем случае п.4 если контроллер хороший и вовремя «протухающие» ячейки обнаруживает и перезаписывает без вмешательства пользователя, а важные данные регулярно бекапятся либо их вообще нет на этом диске (например диск отданный под разные кэши и своп). Впрочем долго (в плане календарного срока службы, а не ГБ данных нагрузки) такой диск уже не проживет — контроллеру нужно будет все чаще «обновлять»(переписывать) данные из ячейки в ячейку, в борьбе за их сохранность, начинает резко расти WA и еще оставшийся ресурс начинает расходоваться намного быстрее.
Польза теста сравнительная. Если диск X до деградации до стадии 6 прожил в 3 раза дольше чем диск Y, то с очень большой вероятностью и до стадии 3 он будет деградировать где-то в 3 раза медленнее чем Y до стадии 3.
А отказы «не связанные с ичерпанием ресурса», выглядящие как отказ контроллера часто все-равно с именно с износом и связаны — сдыхают ячейки в служебной области, где хранится прошивка или таблицы адресации и диск превращается в «кирпич». Если подключиться к отладочным выводам контроллера такого диска можно увидеть, что он жив, но не может что-нибудь прочитать из флэша и приступить к работе. Но с точки зрения пользователя он уже совсем мертв — пропал из системы (не определяется) или выдает какой-нибудь бред.
С другой же наблюдал какие то глюки. Менял видеокарту: загружаю машину, бац, нет бут диска. Покрываюсь холодным потом (особо важной инфы там нет, забекаплено все, но ставить по новой винду я вот прям очень не люблю). Начинаю выяснять: в биосе определяется, вот он (Plextor PX-256) но контролер диска намекает «no physical disk». Отключаю два других диск — все работает, включаю — не работает, потом бац, работает. Шлейф визуально нормальный, замки защелкнуты, трогал его наверное раза два в его жизни, выкидываю к чертям и о чудо, все работает нормально.
Внимание вопрос: что это еще за приколы такие и как вообще связан sata шлейф с возможностью ссд контролера видеть свой массив.
До следующий механической нагрузки или скажем резкого перепада температур с сжатием-расширением.
Я в итоге пришел к схеме:
1 SSD для системы
2 HDD с данными (разными).
Всё это еженедельно бекапится акронисом — SSD и первый хард — на второй, а второй хард — на первый.
SSD если умирает, выкидываешь, покупаешь новый, разворачиваешь акронис — вуаля, у тебя за полчаса рабочая система с новым диском. Данные при этом не затронуты, софт каждую неделю не ставишь — так что не теряется вообще ничего.
Ну а если умирает один из жестких (что происходит гораздо реже) — в принципе то же самое. Но это за ближайшие 10 лет было только пока один раз, т.к. HDD не системные — в работе они гораздо меньше, износа мало. При этом система работает на быстром SSD, все плюсы скорости загрузки и работы остаются.
Остаётся только при каждом обновлении наращивать объем дисков про запас… Начинал я когда-то с SSD на 64гб, сейчас уже 512 стоит. Жесткие были по 512, сейчас по 4ТБ.
- механические повреждения и износ HDD;
- отказ электроники или ошибки прошивки в SDD.
HDD точно так же мрут из-за ошибок и повреждений прошивки или из-за отказа электроники. как и SSD, просто на фоне основной причины выхода HDD из строя (смерть из-за механических причин) это незаметно. Да, для HDD в части случаев будет видна деградация в атрибутах SMART, что и создаёт видимость контроля над состоянием диска. Достаточно иллюзорную: постоянно встречаю внезапные отказы HDD без предварительного перехода атрибутов в pre-fail. Тот факт, что электроника/прошивка мрёт в HDD ничуть не реже, чем в SSD, автор просто игнорирует.
Но если бы он отнес его к ремонтнику — может, он нашел бы вышедший из строя электронный компонент — и смерть стала бы не такой таинственной.
А зачем на серверах использовать десктопные ssd?
Например, есть сервер 1С/SQL. По рекомендации той же 1С базы данных нужно держать на одном RAID, журналы транзакций — на другом, временные таблицы — на отдельном диске или RAID, так же отдельные диски под временные файлы системы, Pagefile, кэш 1С и т.д. Но большинство этих «и т.д.» не являются критическими. В крайнем случае лечатся заменой диска и перегрузкой сервера. Держать под них отдельные серверные диски, тем более RAIDы — только корзины забивать и деньги тратить. А заполнены эти диски — на несколько гигов, максимум. И нагрузки на них нет совершенно.
Поэтому из 14 дисков на этом сервере у нас 9 серверных, объединенных в RAID-1 с HotSpare, и 5 десктопных (2 в RAID-1 без HotSpare и 3 отдельных).
Один Vertex OCZ 4, как я уже писал, иногда отваливался. То раз в пару месяцев, то 2 раза в месяц. Т.к. на нем были кэши 1С, то это в самом деле было неприятно — требовало физически отсоединить его, втыкнуть обратно, пошаманить в RAID-менеджере, восстановить ФС, если есть ошибки, может быть почистить кэш. Мелочь на 10-15 минут, но нервировала. Но после замены на Kingston проблем уже полгода нет.
Вообще, о Vertex OCZ 4 я самого низкого мнения…
Без обид, если вы 'колхозите', то тогда жаловаться на то, что что-то пошло не так, как в статье, это смешно. Есть северная инфраструктура, есть десктоп. Если в компании, в которой нет бабла, начинается колхоз, то появляются вот такие статьи :)
Бизнес — это зарабатывание денег, а не замена дисков, перезагрузка серверов и иные несуразные действия. Я прекрасно понимаю, что бизнесы бывают разные, но для меня, работать в бизнесе, где надо в инфраструктуре финансово балансировать на экономии северного диска это не допустимо.
глупость говорите.
Поддержание инфраструктуры с абсолютно надежными дисками — это утопия и сверхдорого.
Соответственно, бизнесу решать выгодно ли держать специально обученного человека, который будет только и заниматься заменой диской. Тем более, если это обеспечивает SLA/SLO.
Надеюсь, что персонально Вам (и мне) такой рутинной работой, как замена дисков, заниматься не придется (разве что только за соответствующее денежное вознаграждение).
но для меня, работать в бизнесе, где надо в инфраструктуре финансово балансировать на экономии северного диска это не допустимо.
Ну то такое. На всех не желающих работать в таких бизнесах, к сожалению, в мире недостаточно бизнесов, которые не экономят на железяках.
Бэкапы нужны по любому. Причем, в нескольких местах.
У нас на SQL-сервере для всех баз имеются резервные копии. Для одних по простой модели, для других — по полной. На том же сервере на отдельном RAID-1 из 2-х HDD + HotSpare HDD (не SDD). Это на случай, если кто-то из бухгалтеров накосячит так, что проще будет всю БД восстановить на полчаса/час назад, чем его проводку откатывать.
Но периодически эти резервные копии сливаются по ВОЛС на отдельно стоящее хранилище на другой территории (метров за 300 от основной). Вернее, не на него сливается, а он сам стягивает их по FTP. Тому как закрыт файерволлом так, что достучаться к нему с этой стороны совсем невозможно.
Срок хранения этих удаленных копий — от 2-х до 4-х недель.
Следующий момент — будем думать еще о периодическом сливе дополнительных копий куда-нибудь в облако.
RAID — это не вопрос сохранности данных. Это вопрос отказоустойчивости. Для снижения вероятности ситуации, когда сервер придется полностью отключать на время восстановления информации из копий.
Ну и контроль S.M.A.R.T. отдельных физических дисков помогает повысить эту отказоустойчивость. Принять меры по замене дисков, когда только возникают первые признаки их деградации, а не ждать аларма при деградации всего массива.
CSE. За два года, из 10 SSD, из строя не вышел ни один. Нагрузка на них приличная.
на самом деле самая большая проблема ssd это отказывающие контроллеры
ну и забудьте про то, что нужно смотреть на тип памяти, смотрите всегда dwpd, правда его мало где можно найти, но сейчас хоть начали указывать tbw, а зная его уже можно высчитать dwpd=tbw/объем диска в терабайтах*на колличество дней в году 365 и *на гарантийный срок производитнля
В общем, когда немножко представляешь изнутри эту кухню, тот факт, что SSD внезапно смертен, не удивляет совершенно.
Что касается отказа Crucial MX300 — это накопитель для персонального компьютера, для серверного использования не годится. SATA интерфейс на SAS контроллере уже намекает на возможные проблемы.
SATA интерфейс на SAS контроллере уже намекает на возможные проблемыО каком SAS-контроллере идёт речь, и на какие именно проблемы намекает SATA-интерфейс?
Что касается отказа Crucial MX300 — это накопитель для персонального компьютера, для серверного использования не годится.
Hetzner смотрит на вас
Что и куда ставить, зависит от бизнес-модели, а не от назначения компутера.
Как страшно жить… ©
В общем, есть вопросы к этой персоне
Самая большая проблема SSD — это запроприетаренная прошивка.
А вас этот факт не раздражает в любом другом девайсе, будь-то видеокарта, жесткий диск или кофеварка?
Раздражает, но в случае кофеварки и видеокарты это не так фатально.
Я не слышал отказы видеокарт из-за того, что им прошивку криво обновили. Ах, да, так потому что видеобиос — это не фирмварь видяхи, а коды для основного процессора ПК.
Всякую дичь типа оверклокинга не рассматриваем. Именно штатную работу и обновления.
К тому же, даже отказ видеокарты не настолько фатален, как потеря сотен гигов уникальной информации (да-да-да, жду комментария про бекапы и облако)
Жесткий диск имеет совершенно иное устройство, и задачи прошивки там в принципе минимальны, ошибиться почти негде, кривая прошивка будет означать фейл всей серии, а не рандомных устройств.
Минимальны? Я бы не сказал. Там практически свой «компьютер в компьютере». Считай — операционная система реального времени. У которой куча задач. И атрибуты SMART правильно считать и записывать, и протокол обмена с хостом (SATA/SCSI/ATA) поддерживать и пр. пр.
Потому что в этом случае не теряются данные, и девайс не превращается в кирпич из-за какого-нить division by zero.
Так существование SSD, которые окирпичиваются из-за ошибок в прошивке, тоже наукой не доказано, разве что вы решили прошивку обновить, и что-то пошло не так (с). Но как по мне, если пользователь полез обновлять прошивку диска, на котором есть нужные ему данные, и при этом не сделал их бэкап, и все накрылось — это не вина производителя, а как минимум, справедливое возмездие Аллаха за дикую беспечность.
Если же ваш SSD сдох в процессе эксплуатации, смело ищите аппаратную проблему. Чип какой полетел, пайка треснула и т.д. Причем для ваших данных тоже это не есть фатально, форматы записи на чипы у массовых производителей не являются тайной за семью печатями, и если микросхемы целые, в сервисном центре за денюжку данные вам оттуда вытянут.
Такого понятия как «здоровье» диска нет по сути.
HDD может так же внезапно отключиться как и SSD, но поскольку в HDD проблемы чаще всего механические, то перед полным отказом он зачастую начинает работать нестабильно.
В случае SSD механики нет, поэтому отказ чаще всего мгновенный.
Нет способов точно определить состояние сектора — он внезапно может отказать читаться.
Как правило в таких случаях спасает контрольная сумма — данные просто восстанавливаются.
Но не всегда.
Если данные не удалось восстановить — ошибка чтения данных.
А если эти данные были служебными — например таблица соответствия, или прошивка — SSD становится кирпичом. Ни каких резервных ячеек в SSD нет — используются все.
От того что вы зеркалите данные риск их потерять никак не меняется. Задача зеркала обеспечить бесперебойную работу — чтобы работа не остановилась в случае отказа диска.
А потерять данные зеркало никак не мешает, и в плане защиты данных оно полностью бесполезно.
Для этих целей бэкап применяют.
потому что покупать нужно не говно всякое типа киуикал, а интел
у меня ssd intel от 2011 года 240 гигов, пашет в ноуте круглосуточно, проблем нету сейчас
1. Вставляем б/у девайс, который ранее был на нем в составе RAID-1. В настройке Foreign удаляем с него конфигурацию RAID. После этого ОСь (на другом компе и через SATA) увидит на нем разметку MBR и ФС? Если нет, то как это можно сделать, чтобы не терять информацию?
2. Отдельный диск из RAID-1 вынимаем, несем на другой комп и подключаем к SATA. Увидит ли на нем ОСь MBR-разметку и ФС? Можно ли будет снять образ диска со всеми файлами, например Акронисом? Вроде бы мне удавалось прочитать с него информацию (а может быть даже образ снять), но это было так давно, что я уже в этом не уверен.
3. А вот следующее не получалось сделать:
Как известно, LSI-контроллеры не поддерживают non-RAID диски. Т.е. если надо подключить к нему одиночный диск, то рекомендуют создать фиктивный RAID-0 и поместить в него этот единственный физический диск.
Но вот снять образ с такого физического диска, подключив его к SATA на другом компе мне не удалось. Acronis просто не распознал разметку, написал, что ФС диска не распознана, и сделал посекторню копию. Но, кажется, эта копия LSI-контроллером за корректную не воспринялась. В результате пришлось создавать новый VD с потерей всех данных.
Кто-нибудь пытался сделать образ одиночного диска из RAID-0 через SATA? Как успехи?
Отдельный диск из RAID-1 вынимаем
Если Вы пользовались поддержкой массива в ОС, например в Windows, то наверное на диске создан системный блок данных, который сохраняет информацию с конфигурацией диска. И его поведение при переносе в другую машину зависит от того, как все это оформлено на уровне ОС.
Если же Вы пользуетесь внешним контроллером, то информация о конфигурации диска хранится в выделенном аппарате. В зависимости от типа массива, ваши шансы подключить этот диск в другой машине зависит опять же, от того, как этот внешний контроллер совместим с тем, от куда диск «пришел».
В принципе, так называемый JBOD считается наиболее подходящим для будущих перемещений диска от устройства к устройству, с сохранением информации. А вот поведение отдельно взятого диска надо проверять, в данных конкретных условиях, поскольку никаких гарантий, кроме заранее оговоренных в документации, никто дать не может.
Опять же, в теории, любой диск можно подключить через внешнее аппаратное устройство, просто как массив данных. Есть такие USB разъёмы. Мне через такой разъём удалось подключить практически все диски ( HDD ) из всех конфигураций. Кроме тех, где мотор был сломан. И если он не подключался через стандартный протокол, то можно было снять данные с помощью утилит, которые считывают данные с диска, не обращаясь к службам разметки диска ОС, а потом распознают на нем различные паттерны записи, и выдают информацию в виде либо полноценного файла, либо как «блок данных не распознан» и там пакет 16-тиричных символов ( 4 таких не распознанных файла на 1/2 терабайт диск ).
Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?Да, это 2002–2007 год, эпоха HDD, но суть статей как раз в том, что накопители просто дохнут — и всё. Можно пытаться строить статистические модели, если у вас во владении есть тысячи накопителей из одной партии, но для конкретного экземпляра это всегда выглядело и будет выглядеть как внезапный выход из строя. Можете сколько угодно отрицать это, нервничать и впадать в депрессию, но рано или поздно вам придётся принять за аксиому, что накопители умирают, когда ничто не предвещало. Надо заранее быть к этому готовыми.
за авторством Bianca Schroeder и Garth A. Gibson
Failure Trends in a Large Disk Drive Population
за авторством Eduardo Pinheiro, Wolf-Dietrich Weber и Luiz Andre Barroso
А также статьи из библиографического списка, в частности про Internet Archive.
А вот с SSD и ценники выше, и шансы меньше.
Радует лишь то, что сейчас можно платить чуть больше за явно (MLC vs TLC) более надежную память (вроде Samsung-говских SSD Pro-серий, microsdxc карточек серии endurance), V-NAND в целом у хороших производителей радует. Потребительские SSD эконом-серий в сервера ставить — это вообще за гранью добра и зла, если только архитектура не готова к выходу из строя отдельных дисков без прерывания сервиса.
Дохнуть будет все и всегда, даже когда в широкие массы придет фазовая память и проч. Территориально-удаленные бэкапы нужны всегда. Ядерная война не за горами, потом придется рвать на себе волосы что бэкапы были на балконе дома снесенного ударной волной…
![](https://habrastorage.org/getpro/habr/comment_images/999/95e/5ef/99995e5ef4dc09c5e8901e23a367bbaa.gif)
за небольшую плату
Ну как небольшую… купить ещё один такой же винт и настроить бекапы всяко дешевле, чем запросят за восстановление.
уже полумертвую флешку можно такой перепайкой стереть окончательно
Сплавы Розе и Вуда радикально снижают температуру пайки, что позволяет бережно отпаивать.
Ну, и вообще есть разные типы разъемов, даже для BGA ru.aliexpress.com/item/UFS-2-0-1-0-153-BGA-Socket-ufs153-socket-for-testing-function-UFS-2-1/32831746189.html
Если вероятность поломки одного 1 из 1000, то вероятность поломки двух сразу 1 из 1 млн — такой вероятность пренебрегают, когда летают на самолетах.
Если гибель одного пассажира — трагедия, то гибель целого коллектива — невосполнимая утрата. А на моей памяти только у нас были «Пахтакор», «Локомотив», хор Александрова.
Так и с информацией… бывает такая, которую можно и потерять, но при этом работоспособность будет восстановлена с нуля. В таком случае простого RAID-1 из двух дисков даже без HotSpare достаточно. А бывает и так (чаще всего), когда потеря информации будет критической. В таком случае без регулярных бэкапов не обойтись.
У меня самого было два случая, когда сбой одного диска в RAID-1 приводил к нарушениям ФС. А один раз сказёвый диск отказал в процессе восстановления RAID. Если бы не бэкапы — было бы все крайне плохо.
дохнет всё и у всех
и я не вижу причин для беспокойства — любой узел может внезапно отказать без объявления войны, для этого есть куча схем резервирования
какая принципиальная разница между сдохшими HDD и SSD?
более того, у SSD фактически две детали — контроллер и массив
если он внезапно отвалился — к бабке не ходи, контроллер накрылся
и как эта информация повлияет на душевное спокойствие автора?
Наблюдаю всё больше отказов SSD-дисков в SATA-формате. Диагноз одинаков работает-работает, бум! - диск пропал из системы. Кнопка "сброс" не помогает; лишь полное отключение питания сбрасывает диск, он становится виден вновь и работает вплоть до очередного отказа через несколько дней. Масса разных материнок, масса разных дисков (из последних наблюдаемых с проблемой - Verbatim, AData, GoodRAM).
Почему меня нервируют отказы современных SSD