Почему меня нервируют отказы современных SSD

https://utcc.utoronto.ca/~cks/space/blog/tech/SSDDeathDisturbing
  • Перевод


Сегодня один из SSD на одном из наших новых файловых серверов под Linux умер. Это не первая и, вероятно, не последняя смерть SSD, с которой мы столкнёмся, но, как почти всегда в таких случаях, я почувствовал, как шалят мои нервы – а всё из-за сочетания характера отказов SSD, их похожести на «чёрный ящик» и твердотельной природы.

Как и большинство других отказов SSD, этот произошёл внезапно; диск перешёл из состояния прекрасно работающего в состояние вообще не реагирующего ни на что секунд за 50, без какого бы то ни было предупреждения через SMART или что-либо ещё. Вот он радостно обрабатывает запросы на чтение и запись (по всем внешним признакам, в том числе и ZFS, которая не жаловалась на контрольные суммы), а вот уже нет никакого Crucial MX300 на SAS-порту.

Первое сообщение от ядра Linux об отказе IO-операций поступило в 20:31:34, а официально отсутствующим диск был объявлен в 20:32:15. Однако реально диск мог сразу перестать отвечать на запросы – мне не совсем понятны сообщения драйвера.

Что беспокоит меня больше всего по поводу этих резких отказов SSD – так это насколько они непонятны, и что я не могу сам себе объяснить, что именно пошло не так. Когда жёсткий диск крутится, он тоже может внезапно помереть, но, по крайней мере, можно составить объяснение того, что случилось перед этим – заклинило мотор, или случился другой физический отказ, приведший к резкому останову. SSD – твердотельные и таинственные, и у меня нет никаких объяснений тому, что пошло не так, особенно когда диск ещё молод и не должен был подходить к исчерпанию лимита жизни флэш-ячеек.

Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. С SSD теоретически такого происходить не должно, поэтому его ранняя смерть особенно беспокоит. Возможно, во флэш-ячейках тоже могут быть необнаружимые дефекты изготовления.

А когда у меня нет объяснения происходящему, мои мысли начинают идти по пути беспокойства – типа того, что диск обманывал нас по поводу своего здоровья в SMART-диагностике, и что он на самом деле использовал последние запасные ячейки, а потом они закончились, или что у него была какая-то ошибка в прошивке, которую мы случайно затронули, после чего он превратился в кирпич.

У нас было такое, что SSD таким образом умер, а потом вернулся к жизни, когда его достали и снова воткнули – и на вид был совершенно здоровым, что совершенно не внушает доверия. Но это был другой тип SSD. А ещё мы получали странные ошибки от SSD серии Crucial MX500.

Кроме того, когда у меня нет объяснения отказам SSD, каждый из них кажется мне непредсказуемой миной замедленного действия. Здоровы ли они или помрут завтра? Кажется, что я должен полагаться на статистику, то есть, что не слишком многие из них умрут, и сделают это не слишком быстро, чтобы их можно было поменять. И даже эта надежда зиждется на предположении об отсутствии корреляции отказов – что произошедшее с этим SSD с малой вероятностью произойдёт с другими, стоящими рядом с ним.

И эта проблема актуальна не только для наших файловых серверов – у меня есть то же беспокойство, связанное с моим домашним компьютером. Все данные я зеркалю, но каковы реальные шансы отказа обоих SSD?

В теории я знаю, что SSD должны быть куда как более надёжными, чем вращающийся ржавый диск. Также у нас есть куча SSD, тихонько работающих уже много лет. Но после таких загадочных внезапных отказов они уже не кажутся такими надёжными. Я очень хотел бы, чтобы у нас было какое-то предупреждение по поводу отказа SSD, ведь с HD это довольно часто было возможно (к примеру, такие предупреждения по поводу HD в одном из рабочих настольных компьютеров мне поступали – хотя я их и игнорировал).
Поделиться публикацией

Комментарии 289

    0
    Было точно так же с ADATA Ultimate SU800 128GB через 5 месяцев работы как основной диск для windows 10 (просто рабочий бук, никакого видеомонтажа и тп), просто не включился, в BIOS не определялся.
      +3
      так они не особо качественные, адата например, такими же флэшками славилась, во она есть, а вот ее уже нет, много ли у Вас кингстонов или м2 самсунгов, так внезапно уходило в страну вечной охоты?
        +2
        26 Kingston, например. 20 2.5, 6 M.2. Может это были неудачные партии, но смерть была именно как в статье — по SMART всё идеально, просто внезапно переставали работать. M.2, через некоторое время, снова начинали работать, 2.5 с концами. Точные модели не скажу, с 2.5 было 5 лет назад, с M.2 — два года.
          0
          а они серии hyperx у Вас были?
            0
            Я не помню модель.
              0
              жаль, просто отзывы смотрел перед покупкой и они весьма разнились, в зависимости от линейки
          0
          > адата например, такими же флэшками славилась

          К слову про адата. Уже лет так примерно 6 использую флэшку адата на 32 гига как временный кэш для торрентов. Жива до сих пор, никаких ошибок чтения/записи нет.
          При этом, две флэшки кингстон померли в течение полугода после покупки.
            0
            2 адаты накернились, кингстонов не было, а вот трансценды живы до сих пор, правда не особо дешево они мне тогда обошлись, но вроде как не зря потратился, посмотрим, что дальше будет с ними
            +2
            Лично у меня Intel 320 внезапно стал размером 8ГБ из 160.
            Все данные накрылись.
            SSD восстановил через secure erase. После этого ssd работал ещё полгода до такого же фейла. Конечно доверия к нему не было и данные бекапились ежедневно, поэтому сюрпризом не стало. Опять secure erase. Через полгода опять фейл. Опять восстановил.
            В конце концов надоело, купил новый.
            А в SMART всё чисто, никаких ошибок.
              +4

              Наверное, 8 мегабайт, а не гигабайт. Это известная проблема 320 серии, которая лечится обновлением прошивки. Но данные, если глюк произошел, уже не спасти, да. Гуглить по intel 320 ssd 8mb.

              0
              Каждый месяц пересобираю RAID из кингстона и AMD по причине зависания кингстона.
                +8
                Если вы это делаете каждый месяц, и не поменяли свой кингстон на что-то не зависающее, значит, вам это занятие определённо нравится.
                  0
                  Определённо, я был бы весьма признателен, если бы кто-нибудь подкинул денег на покупку хорошего, годного железа.
                    +6
                    Я не верю, что человек, который себе мастерит такие игрушки, как RAID на SSD, может быть стеснён в средствах.
                      +1
                      Зеркалирование диска с важными данными теперь считается игрушкой для богатых? Мы точно пишем под статьёй про внезапные отказы SSD?
                        +3
                        Зеркалирование диска с важными данными теперь считается игрушкой для богатых?

                        Зеркалирование SSD на домашнем компе? Да. И раньше считалось, и теперь.
                          0
                          Ну что сказать, очень плохо. Избавляйтесь от этих предрассудков, если, конечно, домашный ПК для вас — не средство для просмотра ютуба.
                              0
                              Да, спасибо, я знаю, что это взаимодополняющие технологии.
                                0
                                Имхо я бы переделал вашу схему на независимые диски с ежедневной синхронизацией (например Cobian backup) и/или средства в стиле Acronis. Например саму систему бэкапим раз в неделю, а данные каждый день (или чаще если всё очень критично). Но больше всего мне нравится другой вариант — диски перевести в RAID0 и купить жёсткий диск для бэкапов.
                              +1
                              Я избавился от предрассудков лет десять назад, когда у меня дома развалился этот самый RAID-1 по причине смерти одного диска. Я все равно потратил время на восстановление системы и стал перед дилеммой, искать ли мне ещё один такой же диск в RAID (а если по феншую, то два одинаковых новых), или купить любой другой и делать обычные бэкапы. И оказалось, что второй вариант намного практичнее.
                                0
                                А, собственно, когда я сказал, что не делаю бэкапов?
                                Не буду вас ни в чём убеждать, любовь к восстановлению системы из снэпшотов сомнительной даты после сбоя одиночного диска с последующими размышлениями на тему «а что же потерялось» — неотъемлемое право каждого айтишника. А уж к выкачиванию файлов и ручной перенастройке всего и всея, если под бэкапом вы понимаете хранение исходников на битбакете, — и подавно.
                                  0

                                  А почему не смотрите в сторону облачных хранилищ?


                                  Сейчас они стоят копейки, а стабильности и простоты добавляют в разы больше. Как правило всегда есть "еще один ноутбук", "вон тот старенький ПиСи", "простенький смартфон" и тд, которые позволят получить доступ к необходимым данным "прямо здесь и сейчас".


                                  Ограничений такого подхода, на мой взгляд, два:


                                  • хреновый интернет (привет, Камчатка!),
                                  • большие объемы (конвертация видео 4к и тд)

                                  IMHO, RAID в текущих реалиях нужен только для машинок, которые должны быть с максимальной доступностью — сервера (но тут рейда недостаточно — должны быть более сложные системы отказоустойчивости), регистраторы систем видеонаблюдения и тд. Явно речь идет не про домашнюю машинку.

                                    0
                                    Потому что облако — вещь такая™. Сегодня там лежат твои данные, а завтра их почему-то в нём не окажется. Сталкивался с таким при попытке хранить файлы на диске (ха-ха) мэйл.ру: файлы в списке как бы есть, а скачать их нельзя. С тех пор использую любые облака только для хранения дополнительных копий. Собственно говоря, всё банальное просто: хочешь, чтобы было нормально — сделай сам.
                                    По поводу рейда — тут у нас, видимо, просто различное мировозрение. Я только за последние 2 года видел 5 отказов HDD у родственников и знакомых, 2 из которых закончились платным восстановлнием данных. Из оставшихся на один забили, с одного удалось считать большую часть данных, загрузившись с лайвсиди, последний как раз был в зеркальном RAID'e. Я не понимаю, как люди могут жить без зеркала при настолько ненадёжном железе.
                                      0
                                      Жуть. Как я всю жизнь обхожусь без рейдом и облачных хранилищ?
                                      Максимум, скидываю копию, раз в пятилетку, на редко используемый винт.
                                      Без феншуя. На SSD С — система и рабочее ПО, для быстрого старта. На диске H — всякий одноразовый хлам и торренты, которые надо посмотреть, пощупать и… удалить в последствии.
                                      А вот на дисках между ними. Например диск D — реально рабочий (кстати на него спроецированы папки рабочего стола и прочии библиотеки форточек). Диск Е — древнейший архив (если копнуть на нём, то там файлики прошлого века).

                                      Ну а если ближе к топику, то меня тоже тревожит вопрос не жданчиков со стороны SSD. За несколько пара штук умерла. На совсем. И если с HDD есть хоть какие-то шансы на восстановление инфы, то в случае SSD эти шансы стремятся к нулю.
                                        0
                                        Очень просто… Вам не нужно обеспечить, в лучшем случае, бесперебойную работу десятка серверов, а в худшем — восстановление критической информации (и работоспособности) в течение нескольких часов.

                                        А вот когда такая потребность появится, то будут и RAIDы, и регулярные автоматические локальные бэкапы, и удаленные и облачные. И резервирование провайдеров и ЗИПы не из б/у дисков, а из новья. И контроль S.M.A.R.T. где это возможно и фоновая верификация…
                                          0
                                          Это да. Тут не спорю.
                                          К счастью использовать в быту дисковые полки и прочее перечисленное вами, э… несколько излишне.
                                          Но как это не странно, именно б/у диски у меня обладают большей надёжностью, по сравнению с новьём. Старьё уже к 10 годам работы приближается, а новые — от силы пару-тройку лет выживают. А на примере новых SSD (и примкнувших к ним разовых внешних винтов), и года не выживают, а то и полугода.
                                            0
                                            > не из б/у дисков

                                            Небольшое дополнение.
                                            Насколько помню, в статистике, по-моему от Backblaze, было такое, что у новых дисков где-то до полутора-двух лет больше отказов, чем после. Т.е. самые надежные — это те, которые использовались полтора-два года и выжили.
                                              0
                                              Ну, это не только для HDD/SDD:

                                              https://ru.wikipedia.org/wiki/Интенсивность_отказов

                                              Но тут есть нюанс…

                                              Чтобы использовать такие диски-ветераны, они должны сначала поработать где-нибудь в «тренировочном лагере» годика 2. Причем, под адекватными нагрузками. Только после чего их можно будет ставить на боевой сервер.

                                              Т.е. у них на эти самые 2 года уменьшится ресурс, не говоря уже о гарантии.

                                              Т.к. гарантия в большинстве случаев для SSD составляет 60 месяцев, то такие меры можно было бы считать оправданными, если бы выход из строя в процессе «тренировки» превышал 40%.

                                              Но что-то мне подсказывает, что эта цифра окажется явно завышенной.

                                              Поэтому, может быть для снижения риска геморроя это и имеет смысл, но с экономической точки зрения впустую профукать 2 года жизни накопителя явно невыгодно.
                                                0
                                                Зачем ждать два года? Есть методики искусственного старения, и что бы что-то состарить — нагрейте. Все что вы видите вокруг — стареет исключительно и по одной причине — из за температуры, и все что вы видите вокруг — это химические реакции. Возьмите банального Вант-Гоффа, и он вам расскажет почему курица в холодильнике не тухнет. Конечно это в некоторой степени притянуто заушы, и в некторых биологических реакциях оно не работает, но в подавляющем большинстве методики старения неорганики основываются именно на повышении температуры. Само собой методики не простые, составляются очень сложно, применяется тут очень сложная «наука») Я лично видел формулы, по которым рассчитывают искусственное старение. Сказать что они монструозные — это ничего не сказать… Но это все возможно, и используется да почти хоть где. Например на СибМоторе я жог двигатели пачками, по специально составленной методичке. Тупым и контролируемым нагревом работающие двигатели работая три месяца работали как бы три года)) И ровно такие же методики, но со своими приколами разрабатываются на все. На винт такую методику составить тоже в общем-то не проблема, да и 100% они в природе существуют) На заводах точно есть.
                                        0
                                        А что насчёт таджиков, перерубивших ГОРОДСКОЙ кабель экскаватором? Нет, через сутки всё восстановили конечно. Но как быть с потерей суток, если например это был дедлайн по крупному заказу?
                                          0
                                          Но как быть с потерей суток, если например это был дедлайн по крупному заказу?

                                          Никак. Домашний RAID эту проблему уж точно не решит. Какая разница, где у вас дома хранятся данные, на соло-диске или в массиве, если вы не можете ни обновления от коллег получить, ни отправить, ни отдеплоить.
                                          Если у вас есть такие важные заказы, резервировать надо не диски, а провайдеров. Чтобы было два разных городских кабеля.
                                            0
                                            Если заказ требует много данных и они хранятся у меня локально, отключение сети затормозит только передачу файлов — саму финальную операцию. А вот облачное хранение остановит всю работу на сутки.
                                            А насчёт второго канала — да это правильно. Только тут надо вести речь например о сотовой связи или спутнике. Я упоминал про обрыв входа в город.
                                              0
                                              А вот облачное хранение остановит всю работу на сутки.

                                              Я, честно говоря, слабо представляю, зачем вообще можно работать в облаке, не имея локальных копий, если вы работаете с компьютера, а не с планшета или телефона. Я этот сценарий даже не рассматриваю :)
                                              Я упоминал про обрыв входа в город.

                                              Так ведь у города нет какого-го центрального городского входа. Все входы принадлежат каким-то провайдерам. Сколько первичных провайдеров, столько и входов. Если провайдер в городе один, тогда, естественно, обрыв его линии приводит к общему шатдауну.
                                                0
                                                Сейчас, может быть, но сильно не уверен. Наукоград штука более подконтрольная, чем Задние Грязюки. А один кабель проще контролировать.
                                                  0
                                                  Да кабель как раз никто контролировать не собирается, что оно за ценность? Наоборот, чем их больше, тем надежнее инфраструктура и выше пропускная способность. А кнопка «выкл» есть в коммутационных центрах у провайдеров.
                                                  Если мы говорим про небольшой городок тыщ на 30 жителей, то там действительно может быть один первичный провайдер с одним кабелем. Города-миллионники же соединены с внешним миром многими десятками независимых каналов. Причем шатдауны каналов происходят постоянно, и по внешним причинам, и для планового обслуживания. Пользователи этого просто не замечают, т.к. маршрутизация переключается на другие.
                                      0
                                      когда у меня дома развалился этот самый RAID-1 по причине смерти одного диска
                                      Какой-то у вас RAID1 неправильный.
                                        0
                                        Неправильные были чуваки, которые писали прошивку встроенного в материнку контроллера.
                                          0
                                          А в чём смысл использования встроенки? Если процессор не совсем дохлый, на типичных задачах просадок от программной реализации вы не почувствуете.
                                            0
                                            А в чём смысл использования встроенки?

                                            По-моему, использовать имеющуюся аппаратную фичу как раз самый очевидный вариант. Мне вообще не было ни капельки интересно выяснять на практике, почувствую ли я разницу на каких-то своих задачах между программным и аппаратным рейдом. Я начал играться с компьютером в 1995-м году, и к 2008-му наигрался вдоволь, у меня уже не было желания экспериментировать с настройками дисков и софтовыми приблудами. Я предпочитал, чтобы он просто делал своё дело.
                                              0
                                              А тут как всегда — чем более мэйнстримовая реализация, тем дешевле будет восстановление при её отказе. Стремление к использованию аппаратного (нет) рейда похвально, но только до тех пор, пока он не развалится с невгугляемой ошибкой.
                                                0
                                                Подозреваю, что встроенное в материнку в любом случае работает хуже программного рейда. Даже на серверах HP вполне себе аппаратный рейд тормознее, чем программный рейд поверх тех же дисков через тот же контроллер…
                                                Ну и про fakeraid забывать тоже не стоит, бывало всякое…
                                          +1
                                          Если совсем по фен-шую — то два диска из РАЗНЫХ партий, лучше — разных производителей. Но одного размера :)
                                            0
                                            Бывает, что размер чуть-чуть, но у разных производителей отличается )
                                              –1
                                              Да, есть такое дело — некоторые считают по стандарту (в бинарных байтах, некоторые — в десятичных. Причём не всегда у них кило — это 1000, у некоторых 1024). Но зеркало создать это не мешает — просто будет использоваться минимальный из доступных объём, остальное «потеряется».
                              0
                              а какой серии кингстон у Вас? hyperx?
                              +3

                              Флешки кингстона уходили только так. Самые надежные флешки, что попадались мне одна серия transcend jetflash. Радовали и ценой и производительностью и стойкостью, было штук 5, до сих пор работают две, остальные просто растерялись

                                0
                                подтверждаю transcend jetflash — это моя первая флешка купленная, более 10(?) лет назад работает до сих пор
                                  +1
                                  Тут ещё играет роль тип памяти. Старые-то были сначала поголовно на SLC-ячейках, потом на MLC, сейчас на TLC перешли и начинают на QLC. И каждый новый тип менее живучий. У меня в коробке с флешками есть даже 16-мегабайтный экземпляр начала 2000-х. Тоже работает как миленький.
                                    0
                                    вот! поддержу
                                      +1
                                      У меня дома неописуемый зоопарк флешек — Тресценды, АДата, Кингстоны, СанДиски и прочие, у которых я даже на брэнд не смотрю. Потому что понял, что везде можно напороться на лажу.

                                      Купил как-то SD-Card Transcend 16 Gb дочке в читалку. Вставил в слот, читалка увидела ее, сказала, что надо отформатировать, после чего выдала ошибку. И видит у нее только несколько мегов. В компьютере — то же самое. Попытки восстановления всякими утилитами ни к чему хорошему не привели. Сходил в магазин (благо он в моем доме же располагался) — заменили. Принес домой, вставил в комп — тоже самое. После того, как я пришел возвращать третью, продавцы дали мне тоже Transcend, но не в «зеленой упаковке, а в синей»… Говорят, партия была бракованная.

                                      Хотя я сильно подозреваю, что это был просто контрафакт.
                                      0
                                      Кингстоны вообще не люблю, столько их трупиков наблюдал, а вот из любимых у меня — силиконповеры. В хвост и гриву работали годами (правда не под торрентами).
                                        0
                                        Вот в таком конструктиве SP проработал всего несколько месяцев с момента покупки, всего несколько раз что-то мелкое было записано.
                                        Silicon Power Diamond
                                        image

                                        Ее собрат из другой партии живет долго и счастливо (тьфу-тьфу-тьфу).
                                        Но, возможно, трупик был подделкой.
                                          0
                                          Ну вот про кингстоны тоже есть сомнения в том, все ли те трупы были оригиналами в связи с известностью бренда. А вот у силиконок из подобных приведенным — специфическое наполнение флешки, их, как мне кажется, труднее подделать (там все залито и очень компактно расположено), в отличие от большинства прочих в больших корпусах (где внутренности какие угодно могут быть).
                                          Схожую компактность я ещё видел, когда под флешку маскировались кардридер с микросд внутри. Так что, думаю брак оригинала.
                                      0
                                      много ли у Вас кингстонов или м2 самсунгов, так внезапно уходило в страну вечной охоты?

                                      Ну не сильно внезапно, я успел снять данные пока он был в r/o, до того как он окирпичился, но таки мой первый ssd, Kingston SNV425 64GB отработал лишь чуть больше года.
                                        0
                                        Что интересно — в офисе работают несколько дешевых адата, некоторые по несколько лет. А дорогой кингстон начал сыпаться (спасибо хоть не отключился без предупреждения) меньше чем через год.
                                        +10
                                        Все диски делятся на две категории — мёртвые и пока ещё живые. (с)
                                        Все проблемы с дисками решаются бэкапом и гарантией производителя.
                                        Все проблемы с излишними беспокойствами решаются пивом (если мы говорим про IT).
                                          +6
                                          Все проблемы с дисками решаются бэкапом и гарантией производителя.

                                          бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.
                                          И так как неизвестно, из-за чего он вышел из строя, то в ближайшее время могут и другие диски туда же отправиться.
                                            +4
                                            бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.

                                            Это всего лишь вопрос бюджета. Те, у кого есть потребность в обеспечении бесперебойной работы при отказах железа, и есть на это финансы, про дисковые массивы с горячей заменой дисков, как правило, слышали.
                                              +8
                                              И так как неизвестно, из-за чего он вышел из строя, то в ближайшее время могут и другие диски туда же отправиться.

                                              А во времена HDD это было известно? IMHO, у людей просто была иллюзия на эту тему, которая приводила к фатальному нежеланию делать бэкапы и бесконечным форумным срачам на темы «дятлы против рыб» (если вы понимаете, о чём я) на основании душещипательных историй эксплуатации одиночных экземпляров.
                                              Ситуация с SSD отличается только тем, что количество иллюзий стало меньше. А реальная статистика уже давно посчитана производителями и выражена в виде сроков гарантии. Ориентируйтесь на эти сроки, делайте бекапы, имейте в наличии нужное количество запасного железа и будет вам счастье. В случае домашнего использования, пункт про запасное железо можно исключить в пользу близлежащего магазина.
                                                +5
                                                Ситуация с SSD отличается только тем, что количество иллюзий стало меньше.

                                                Иллюзий стало больше, они читают рекламу и видят что движущихся частей нету, ломатся нечему, ресур такой что можено 5 лет каждый день весь SSD переписывать и даже если он он умрет то просто перейдёт в режим только для чтения, и все данные останутся целы.
                                                И объяснить им что это большая флешка(кои мрут не так и редко) бесполезно, пока на грабли не наступят не верят.
                                                  +1
                                                  они читают рекламу

                                                  объяснить им

                                                  Разумно решать СВОИ проблемы, а эти ваши «они» — пусть «они» решают свои. Себя зачем грузите? Если своего мало, «так я вам работу-то быстро найду!» (с)
                                                    +1
                                                    Потому что потом «их» проблемы становятся моими, потому что «они» бывают моими друзьями.
                                                  +2
                                                  У SSD по сравнению с HDD очень низкая надёжность. Просто катастрофически низкая.
                                                  За всю свою жизнь, включая 90-е, я всего дважды сталкивался с выходом HDD из строя. Именно мгновенным выходом, а не ситуацией, когда диск начинает постепенно «сыпаться» и этот процесс растягивается на недели.
                                                  Тогда как с дохлыми SSD только за последние 3 года сталкивался 4 раза.
                                                  Причём, что самое удивительное, причины сдыхания SSD примерно те же, что и у HDD — дохнет как правило не сам чип памяти, а тухлый контроллер или дерьмово пропаянный разъём. Такое ощущение, что в случае SSD в качестве контроллеров используются отбракованные отходы производства. Не знаю, чем ещё объяснить такой чудовищный процент явного брака.
                                                    +4
                                                    За всю свою жизнь, включая 90-е, я всего дважды сталкивался с выходом HDD из строя. Именно мгновенным выходом, а не ситуацией, когда диск начинает постепенно «сыпаться» и этот процесс растягивается на недели.
                                                    Тогда как с дохлыми SSD только за последние 3 года сталкивался 4 раза.

                                                    А я за свою жизнь сталкивался с множеством выходов HDD из строя, а вот ни одного умершего у меня SSD не было.
                                                    И что это нам говорит? А говорит это нам то, что привычка домашних пользователей делать всеобъемлющие выводы по единичным экземплярам, бывшим у них в эксплуатации, является полным детским садом глубоко ошибочной с точки зрения статистического анализа. Про это я и написал в своём предыдущем комментарии.
                                                    Или может быть я трагически ошибаюсь и вы обладаете достоверной статистикой по, хотя бы, сотням экземпляров HDD и SSD? Правда ваши полные драматизма голословные заявления заставляют меня в этом сомневаться.
                                                      0
                                                      А я за свою жизнь сталкивался с множеством выходов HDD из строя, а вот ни одного умершего у меня SSD не было.
                                                      Когда работаешь в организациях компьютерщиком, то по hdd как раз таки статистику набираешь. Вот сейчас у меня куча hdd валяется как мертвые, из них реально кирпичей — парочка, а десятка два — это посыпавшиеся, из которых у большинства — несколько-десяток бедов, и лишь у парочки — их сотни.
                                                      В итоге, HDD как бы вышли из строя, но вот данные с них были доступны почти зачастую. А у SSD многих характерны именно внезапные смерти контроллеров или глюки прошивок, которые означают полную потерю данных (причем в отдельных сериях — это был бич прям)
                                                      Поэтому не совсем понятна ваша попытка человека выше назвать а) домашним пользователем (читай уйти в демагогические приемы) б) приписать ему ошибку анализа единичных экземпляров.
                                                      А вот то, что вы говорили про множество выводов из строя без уточнения, что это были реальные кирпичи, а не беды, и их отношение к винтам с бедами за этот же период — это как раз пример той ошибки, в которой вы другого пытались уличить. Беды != кирпич, но жесткий диск при этом улетает в мусорку.
                                                  +4
                                                  бекап — это решения проблемы информации, а не дисков. Пока ты не купишь/не поменяешь вышедший из строя диск, работа может простаивать.

                                                  RAID, корзина с "горячей" заменой и ЗИП обоснованных размеров "спасут отца русской демократии".

                                                    +7
                                                    особенно в ноутбуке
                                                      0

                                                      Даже в ноутбуке.
                                                      Системный диск заменяется из ЗИПа, после чего быстро накатывается образ.
                                                      Небольшие по объему данные быстро восстанавливаюься из бэкапа.
                                                      Объемные данные на внешнем устройстве с RAID1. Второе такое же устройство и диски к нему в ЗИПе
                                                      Как-то так.

                                                        0
                                                        Да я в курсе про замену диска и рестор бекапа из образа. Сам такое проходил. Самое печальное, это потеря времени на рестор.
                                                        Вы выше пишете про RAID-1 и корзину с hot-plug. Я написал, что для ноутбука это, очевидно, не подходит.

                                                        Проблему выхода из строя дисков мы, например, решаем с помощью гарантийного и постгарантийного обслуживания и клиентских компьютеров и серверов. Замена вышедших из строя hdd производителем. Конечно данные это не вернёт, но нет необходимости держать ЗИП. Бекап, конечно, проводится.
                                                          0
                                                          Вы выше пишете про RAID-1 и корзину с hot-plug. Я написал, что для ноутбука это, очевидно, не подходит.

                                                          У меня было как-то интересное усттойство, которое имело габариты внешнего жесткого диска (чуть больше ноутбучного жесткого диска по длине и ширине и чуть толще двух ноутбучных жестких дисков, уложенных один на другой.
                                                          Устройство умело подключаться по USB, умело RAID1 с горячей заменой (две дверки с простыми, но достаточно надежными защелками.
                                                          Что мне особо нравилось, диск, работающий в RAID1 можно было вынуть и полключить к компьютеру через SATA или простой USB переходник, и он нормально воспринимался, поскольку не имел в разметке извращений, свойственных дискам, крутящимся во мноших других RAID контроллерах.
                                                          Я его как раз использовал с ноутбуком в качестве носителя для объемных данных.
                                                          Восстановление системы с образа и пользовательских данных из бэкапа на SSD никогда не занимало очень много времени (не больше часа на все).


                                                          Еще вспомнился один интересный ноутбук, которыц довелось видеть живьем (ни производителя, ни модель сейчас не вспомню уже). 17" монстр с аппаратным рэйдом и ттемя слотами для SATA дисков. Горячей замены, правдв, не было, но замена диска заеимала всего пару минут: открутить винт (обычный крест), открыть крышку, заменить диск, поставить крышку на место и закрутить. Если экстремальное использование не ожидается, винт на крыоке можно не закручивать. Защелка нормально держит.

                                                            0

                                                            Это, кстати, плохо, что разметка была обычной и устройство читалось без софта специального. Ибо это означает, что контроллер не хранил контрольных сумм. Тогда в ситуации, когда он внезапно обнаруживает, что данные на дисках отличаются, ему только остаётся сказать об ошибке и отключиться — и пусть уже пользователь гадает, какая же из копий верная. Правильный контроллер делает нестандартную разметку, в которой помимо самих данных хранит ещё и контрольные суммы блоков. Тогда при обнаружении разных данных на диске он может проверить контрольную сумму и сказать "ребята, вот этот диск хороший, а другой какую-то фигню стал содержать, поменяйте именно его".

                                                              0

                                                              Ну как-то это устройство определяло, какой диск объявить поврежденным в случае сбоя и с какого диска копировать данные при замене диска в устройстве, когда вставлялся диск, ранее уже использовавшийся в нем и не отформатированный.
                                                              Подозреваю, что всякую служебку, включая контрольные суммы, оно просто хранило в областях дисков, не распределенных под разделы.
                                                              Подозреваю также, что оно очень неэффективно (не зря же в серьезных контроллерах всегда извращенная разметка), но зато такой приятный бонус.
                                                              У меня не было в запасе второго такого же, и когда устройство померло, это позволило без лишних трат и ухищрений получить свои данные.

                                                                0
                                                                хм, какой-то противоестественной связью у вас связаны чексуммы, разметка и поведение контроллера при сбое
                                                                это три разноуровневые вещи, никак друг от друга не зависящие
                                                                  +1
                                                                  Они связаны крайне просто. Для определения, данные на каком диске корректны (из двух) нужны контрольные суммы. Поскольку хранить их внутри ФС аппаратный контроллер не может — ему приходится хранить их где-то в другом месте. Либо в месте в конце (и тогда есть шанс, что диск прочитается в любом компе), либо рядом с самими блоками. Тот же EMC вообще использует(использовал) для этого сектора по 520 байт вместо 512 стандартных — такие диски на других системах читались с большими проблемами. Если таких сумм нет — определить, где корректны данные (если это не сбой со смертью диска/сектора, отмеченный в S.M.A.R.T.) контроллер не сможет. Никакой противоестественности.
                                                                    0
                                                                    контроллер же знает, какой диск ему не ответил или ответил неправильно, помечает этот диск флажком BAD, а весь массив — DEGRADED, зачем постоянно всё пересчитывать? пусть этим ФС занимается, у неё и журнал для этого есть
                                                                    про чексуммы обычно говорят в контексте RAID5(6)
                                                                      0
                                                                      Он не всегда это знает — для любого диска есть шанс на некорректную запись/чтение бита информации. Соответствующая технология называется у всех вендоров разнообразно.
                                                                      Для IBM — www.ibm.com/support/knowledgecenter/en/SSFKCN_4.1.0/com.ibm.cluster.gpfs.v4r1.gpfs200.doc/bl1adv_introe2echecksum.htm
                                                                      Для HP — Data integrity checking
                                                                      In addition to hardware fault tolerance, all HP 3PAR StoreServ Storage systems offer automated end-to-end error checking during the data frames’ journey through the HP 3PAR StoreServ Storage array to the disk devices to help ensure data integrity in support of Tier-1 resilience. In addition to this HP 3PAR Thin Express ASIC comes with the Persistent Checksum feature that ensures end-to-end data protection, from host HBA to physical drives. (Взято из pdfs.semanticscholar.org/4748/5777672b6c0b548b1c9a2984a091b66abcbb.pdf )
                                                                      Есть аналогичное и у прочих.
                                                          0
                                                          особенно в ноутбуке
                                                          От ноутбука зависит.
                                                          У нас на старом ноуте было 2 сата3 полноценных и один сата2 на м.2, плюс можно было двд диск вынуть получить еще один сата2 полноценный.
                                                          На нынешних 1 слот нвме и один слот сата3 обычный.
                                                          юсб3.1 вполне хватает для быстрых инкриментальных бакапов.
                                                            0
                                                            если мы всё ещё говорим о «простое техники», то ноутбук меняется целиком, на любой подходящий с заранее раскатанным типовым образом, данные в домене и на файлопомойке
                                                            это и будет hotswap для ноутбука
                                                      +3
                                                      У нас большая часть проблем была связана с Vertex OCZ 4. Работает себе нормально и вдруг отваливается. Вынешь его, на стенде потестишь — нормальный. Ставишь обратно — опять работает.

                                                      С заменой Вертексов на Кингстоны и Самсунги проблемы пропали. Да и AData по сравнению с Вертексами вполне нормально работают.

                                                      А один Вертекс упорно не видится ни одним RAID-контроллером. Т.е. он прекрасно работает, подключенным к SATA-разъему, а встроенными в мамки или отдельными SAS-контроллерами совсем не воспринимается. И так с самого изнова.
                                                        –1
                                                        На вертексе четвертом прям щяс сижу и с этого кампа и пишу сюда)
                                                        Работает уже хз сколько, здоровье 92% поглядел только что, винт 120гб, куплен я уже и не знаю когда, лет семь назад что ли, а может быть уже и больше…
                                                        Когда ж ты сдохнешь-то зараза!!! Пока не сдохнет, я ж новый винт брать не буду)))
                                                        Так же в наличии разнообразный парк мошын, во всех без исключения воткнуты интелы и самсунги. Отказов ноль, проблем ноль.
                                                        До меня стояли какие-то убогие ссд-шки — все повылетали, поголовно все. А вполне себе живые и тоже всякие совсем ненужные hdd-шки я вытащил и снес оптом в кантору, торгующую б/у. Такие дела)
                                                          0
                                                          А вполне себе живые и тоже всякие совсем ненужные hdd-шки я вытащил и снес оптом в кантору, торгующую б/у.

                                                          зачем? харды лишними не бывают, бэкапы же, замены, да и новые тачки можно брать только с ссд и старые харды туда вставлять
                                                          +1
                                                          Когда я выбирал себе ssd домой как раз только появились OCZ Vertex 4, и было на разных форумах очень много жалоб на его контроллер, который грешил внезапным помиранием. В отличии от контроллера OCZ Vertex 3, который очень хорошо зарекомендовал себя. Потратил много времени чтобы найти именно третий Vertex, и не пожалел. Сколько лет до сих пор трудится. Не знаю зачем было менять такой хороший контроллер на малоизвестную новинку.
                                                            +1
                                                            У меня Vertex 3 стоял несколько лет, всё было отлично. В какой-то день я решил забэкапить все данные с него (проекты и другие файлы). Забэкапил, всё хорошо. Но тут начались какие-то странные глюки, подвисания компа на несколько секунд, даже мышь не двигалась.
                                                            Решил перезагрузить. После перезагрузки SSD не определяется.
                                                            Как будто ждал пока я не сделаю бэкап :)
                                                              0
                                                              Как будто ждал пока я не сделаю бэкап :)
                                                              Возможно.
                                                              Бакап долгая и грузящая операция, идет нагрев диска, старые диски не умели тротлить при нагревании, что приводило к проблемам. В основном это касалось не энтерпрайз дисков, которые на такое не особенно были расчитаны.
                                                              Современные ссд диски почти все умеют тротлить, да и тех.процесс стал меньше с энергопотреблением, поэтому та проблема почти ушла.
                                                                0
                                                                при записи нагрузка в основном, на чтении раза в 3 меньше, не затроттлишь
                                                            0
                                                            У меня в ящике стола валяется такой вертекс. Сначала работал нормально, а потом стал блокировать случайным образом файлы и подвешивать систему. Переформатируешь, опять работает некоторое время, а потом глючить начинает. А с такими глюками хрен его сдашь по их хваленой гарантии.
                                                            +8
                                                            А каким образом crucial mx 300 внезапно стал «серверным» винтом?
                                                              +10
                                                              Если бы автор или его организация не покупали дешевые SSD, думается, что таких проблем у них было бы поменьше. Говорю как человек, который два года назад купил такой-же Crucial MX300 из-за очень выгодной цены. И этот SSD помер около 2 месяца назад (хотя у него умер не контроллер, а наверное часть памяти, поттому что было очень много «плохих» секторов).
                                                              Кстати, SSD никаким образом не более защищены от ранних производственных дефектов, чем остальные электронные устройства, и утверждение «теоретически такого происходить не должно» в корне неверно. Но да, вообще-то я не припоминаю таких сбоев контроллеров жестких дисков (кроме багов, как в Seagate Barracuda 11, если не изменяет память).
                                                                0
                                                                У меня ОЗУ данного производителя умерла. Одно планка совсем, вторая сбоила периодически. Вот сюрприз так сюрприз, с учётом того что по крайней мере некоторые производители делают пожизненную гарантию. Ладно хоть они не были купленными, а приехали вместе с матерью.
                                                                  0
                                                                  У меня тоже. И их ССД тоже. К Crucial доверия нет. Всякий китай и дешман работает уже подолгу, а Крушл из коробки как-то попался мертвым.
                                                                  А 2 терабайтный Seagate Firecuda уже полгода не могу поменять по гарантии, буду после НГ отсылать по гарантии в Нидерланды.
                                                                  +1
                                                                  Стоял на сервере Samsung 840 PRO: работал отлично, средняя нагрузка по 10-20 МБ/с на чтение. Работал года 3, и в один момент пропал диск из системы, перезагрузили сервер, работает. Следующий раз повторилось через 2 месяца, а затем начало повторяться раз в неделю, причем никакое сканирование, SMART и все другие утилиты не показывали никаких ошибок, но так как перезагружать сервер себе дороже пришлось его списать.
                                                                    0
                                                                    Я поэтому и подстраховался, написав, что по-моему, проблем было бы меньше, а не что их бы не было вообще :)
                                                                      0
                                                                      Плюс, брак есть у всех.
                                                                    +1
                                                                    Контроллер жесткого диска по сравнению с SSD невероятно прост. И то умудрялись косячить… SSD обходятся дешевле в контексте восстановления и не смотря ни на что — они надежнее HDD. Просто потребитель иногда начинает считать их настолько же надежными как DRAM и CPU (ну а что, и там кремний и тут), реальность внезапно удивляет.

                                                                    p.s. Кстати, в домашнем ПК, SSD никогда не умрет по причине износа ячеек, то есть все смерти, с точки зрения SMART, будут внезапны и необъяснимы.
                                                                      +2
                                                                      Кстати, в домашнем ПК, SSD никогда не умрет по причине износа ячеек

                                                                      Мой RevoDrive с вами несогласен 8) Умер правда 1 из 4 массивов но таки пришлось выкинуть. Держался достойно, лет 6.
                                                                        0
                                                                        Это не та ужасная конструкция в слот pci-e четыре сандфорса страйпом?
                                                                          0
                                                                          она самая
                                                                        +1
                                                                        по статистике, ежегодно собираемой hardware.fr, два года тому, обогнав лидировавшую до этого RAM память, SSD стали самым надежным компонентом компьютера — но к старым моделям это не относится.

                                                                        ЗЫ самый ненадежный компонент компьютера по той же статистике это видеокарта
                                                                          0
                                                                          Видеокарта работает, HDD усредненно работают лет по 10 (беру сигейты, сдыхали WD и IBM),

                                                                          а SSD, две планки памяти и несколько материнок уже сдохли.
                                                                            0
                                                                            От чего может сдохнуть RAM и несколько материнок, если только это не брак и они не работают на износ 24/7?
                                                                              0
                                                                              От времени! Планки 5+ лет проработали, но диск (лет 10, не помню когда купил), еще живой, а планки обе сдохли, мать тоже менялась. В первый раз сталкиваюсь со сдохшей памятью.
                                                                                0
                                                                                Да ла-а-адно… Полно.

                                                                                Один раз планка памяти нам даже новая пришла дохлая. Закупили 4 планки по 16 Gb для расширения сервера… Вставили, а он не включается. Очко слегка взыграло (мало ли, что там в мамке могло треснуть, когда их вставляли), но начали разбираться. Выяснили, что с тремя запускается, а с одной — никак. Кое-как распределили память по слотам, чтобы на каждый процессор было поровну и отправили эту планку на замену.

                                                                                А так да… От времени. Работает нормально, вдруг начинает вываливаться в BSOD или перестает загружаться. Память поменяли — снова дышит.

                                                                                Но чаще — от кривых ручек. Когда криво в слот вставляют и питание подают. Хорошо, если при этом она ничего больше за собой не утянет. На YouTube видел ролик по ремонту, когда в результате криворукой замены памяти половину мамки вышибло.
                                                                              0
                                                                              твоя персональная статистика против статистики всех сервисцентров и мастерских Франции? — смешная репрезентативность…
                                                                                0
                                                                                Вот именно — есть статистика, а есть «ситуация на местах». Которая не опровергает статистику, но и не соответствует ей.
                                                                              +2
                                                                              Хмм… по мне, так с огромным отрывом в надежности идет CPU. Видеокарта ненадежна, да, особенно если считать ноутбуки, где видеокарты умирают регулярно.
                                                                                0
                                                                                надёжнее процессора?
                                                                                по браку — могу себе представить, по выходу из строя — не верю
                                                                              0
                                                                              Но да, вообще-то я не припоминаю таких сбоев контроллеров жестких дисков (кроме багов, как в Seagate Barracuda 11, если не изменяет память)

                                                                              Я припоминаю. Проблемы IBM 75GXP/60GXP (тех самых «дятлов»), не связанные с контроллером, помнят многие, а вот не менее эпичный фэйл с отвалом контроллера из-за эрозии контактных площадок контроллера после перехода на безсвинцовые припои в последующих сериях жёстких дисков IBM, как-то подзабыли.
                                                                                +1
                                                                                Fujitsu MPG же.
                                                                                Проблемы серий IC на фоне эпического полета дятлов как-то не вспоминаются. Ну были, ну вроде работали, дохли не больше остальных… Да и вообще их очень скоро перепродали после этого.
                                                                                А вот отвал контроллеров у Fujitsu MPG и частично MPF — вот это было вполне сравнимо с дятлами.
                                                                                  0
                                                                                  По-моему, у всех вендоров были такие фейлы. Я могу абсолютно точно упомянуть Western Digital RE, которые массово умирали через несколько лет по той же причине — эрозии платы.
                                                                                    0
                                                                                    Фейлы были у всех, но не у всех так фатально гибла репутация. IBM и Fujitsu после этих фейлов в итоге избавились от производств. Обидно было, до фейлов я как раз их диски в основном и пользовал.
                                                                                      0

                                                                                      Ну, перегибаете. Все сложно. Повторюсь, что каждый производитель застал черную полосу


                                                                                      • quantum (se, например, был очень надёжной моделью, а вот потом было буэ) — ушел к Макстору
                                                                                      • hitachi даже после того как приобрели подразделение ibm — все равно их DeskStar страдали той же "контактной" болезнью. Пофиксил где-то линеек через пять. Хотя накопители реально были быстрые.
                                                                                      • seagate barracuda 7200.7, которые переставили определяться из-за бага в фирмваре (?). Но я не слышал, чтобы у самой компании были серьезные проблемы из-за этого
                                                                                      • макстор — я вообще удачных моделей не помню
                                                                                        Что интересно — после злополучной линейки Fujitsu MPG они избавились только от десктопных накопителей. Серверные линейки и ноутбучные существовали до недавнего времени, пока они не слились с Hitachi. Мне эти фуджи очень нравились. Реально надёжные были.
                                                                                      • western эпохи до SATA (~20GB накопители). Ломались только так. Самое стремное, что у вестерна были линейки, который по сути накопители IBM, но под лого WD. Дурдом
                                                                                        0
                                                                                        Мне всегда интересно сравнивать свой опыт с чьим-то еще. Выявляются такие различия…

                                                                                        Quantum'ы, сколько я их помню, дохли всегда. У меня долго валялись эти серебристые трупики по всем углам, пока у коллеги не завелся знакомый, использующий магниты из хардов для улучшения характеристик дешевых гитарных звукоснимателей.

                                                                                        Когда Quantum был съеден Макстором, зараза перешла по наследству: до того были диски как диски, ничего особенного ни в какую сторону — после стало сыпучее и ломучее оно.
                                                                                        Потом Макстор, в свою очередь, оказался съеден Seagate'ом, с предсказуемым результатом. После знаменитой мухи це-це они ненадолго выправились, но потом надежность дисков окончательно покатилась под откос, зато появилась куча маркетинга: IronWolf, SkyHawk и прочий зоопарк.
                                                                                        И конечно, новый анимированный логотип (с) — помните статью в их блоге?

                                                                                        Hitachi — а куда бы они делись, когда купили завод с технологией?
                                                                                        У меня вообще ощущение, что надо смотреть не на торговую марку, а на конкретную производственную линию.
                                                                                        Но говорят, в итоге HGST стали весьма надежны. Я, правда, уже не понимаю, они сейчас Хитачи, ВД или сами по себе.

                                                                                        И в итоге пришлось остановиться на WD, которые были очень себе не айс во времена первых гигабайтов, но потом как-то улучшались, улучшались — а может, конкуренты ухудшались один за одним…
                                                                                          –1

                                                                                          К сожалению, не могу согласиться полностью


                                                                                          • как ниже заметили, дохли lct-подобные квантумы. Более ранние вполне были нормальными. На самом деле, то время было достаточно сложным, т.к. многие пользователи покупали откровенно дерьмовые блоки питания (типа codegen), так что это тоже могло быть фактором отказа. И, повторюсь, что более ранние серии квантумов (типа se) были вообще неубиваемыми
                                                                                          • после покупки Макстором Квантума какое-то время наряду с оригинальными накопителями Макстор, под лейблом Макстор продавались бывшие квантумовские разработки. Они тоже страдали, если мне память не изменяет, той же lct-подобной болячкой. Потом линейки объединились (т.е. по сути пошло развитие максторовской линейки, но с учётом наработок квантумы). Но это продолжилось недолго — до покупки Макстора Сигейтом
                                                                                          • кстати, что ещё у квантума было хорошо — так это их энтерпрайз линейка Atlas. Вполне нормальные накопители были. Они даже после перехода под эгиду Макстора так же производились и новый владелец разрабатывал эту линейку
                                                                                          • у Хитачи до покупки подразделения IBM были вполне нормальные ноутбучные аутентичные накопители ))) Ес-но, их ветку потом после организации HGST свернули в пользу travelstar (ibm'овская разработка).
                                                                                          • по Хитачи под WD вообще воздержусь от комментариев
                                                                                            0
                                                                                            > по Хитачи под WD вообще воздержусь от комментариев

                                                                                            Почему? Серверные HGST вполне норм, по сути там только название и осталось. Я бы лично сейчас бы брал современные WD Re или HGST Ultrastar, у них MTBF 2М часов, 0.44% AFR и 5 лет гарантия.
                                                                                              0
                                                                                              Почему? Серверные HGST вполне норм, по сути там только название и осталось

                                                                                              потому что последние несколько лет я не слежу за рынком НЖМД и не могу делать голословные, не подкрепленные опытом и фактами заявления.
                                                                                                0
                                                                                                А, ясно. Я было подумал, что у вас некоторый негативный оттенок той фразы :)
                                                                                              0
                                                                                              К сожалению, не могу согласиться полностью
                                                                                              Так тем и интересно, поскольку личная статистика у каждого своя.
                                                                                              Квантумы на моей практике дохли, начиная с восьмисотмеговых моделей. Кажется, была популярная модель в 850 мегабайт, хотя за давностью лет я уже не уверен. Тогда до покупки макстором было еще, как до луны галсами.
                                                                                              что ещё у квантума было хорошо — так это их энтерпрайз линейка Atlas.
                                                                                              С Атласами не общался, только слышал. Но держал в руках два Бигфута — статистически незначимо, но к этим двум претензий не было.

                                                                                              Я еще и Conner Peripherals помню :) Кстати, тоже претензий особо не было, но их, конечно, через меня мало прошло.
                                                                                            0
                                                                                            Про седьмую модель Барракуды не слышал. А вот у одиннадцатой и в самом деле была «болезнь ЦеЦе» из-за кривой фирмвари. А еще у них был слишком тонкий шпиндель, из-за чего при малейших толчках головки «играли» и падали на блины.

                                                                                            Что интересно, одиннадцатых у нас было полно, но «зацецекали» только один-два. Остальные тихо помирали с ростом количества бэдов. Наверное, как раз из-за механики.

                                                                                            Так что, не все из них выходили из строя одинаково быстро. Не удивлюсь, если еще парочка где-то до сих пор крутится.

                                                                                            По поводу «дурдома»: Нужны были на замену сказёвые диски с разъемом Ultra-320 на 15K rpm. Уж не помню, чьи стояли на сервере изначально (может быть даже Caviar или Seagate), а привезли нам HP. Так вот, мы под лупой смотрели на контроллер — разница была только в напечатанных надписях и одной микрушке.

                                                                                            Так что, все они друг у друга всё передирают или перекупают.

                                                                                            «Всю контрабанду делают в Одессе, на Малой Арнаутской улице» ©

                                                                                            Но разница все же была… родные проработали к тому времени лет 7, а привезенные HP вышли из строя через полгода…
                                                                                              +1
                                                                                              С HP, Dell, Lenovo и IBM история простая. Они в свои сервера и рабочие станции поставляли брендированные накопители. Т.е. это все те же Seagate, HGST, WD, только с переклеенной этикеткой и под парт-намбером бренда. Внутри — это те же накопители, но с нюансом — изменённой моделью и своей прошивкой. И тут в деталях кроется дьявол, т.к. именно прошивка может блочить установку «неродного» (т.е. оригинального) накопителя в брендовую технику. Или приводить к странностям, что бекплейн видит не родные диски и начинает орать благим матом на состояние диска.
                                                                                              разъемом Ultra-320

                                                                                              Небольшая фактическая неточность. Это не тип разъема, а тип протокола. Примерно как UltraATA100, SATA-150, SATA-300 и пр. Разъемы же были стандартные: 68 пин типа D-SUB и 80-пиновый типа MicroCentronics. Скорее всего речь идёт про второй, т.к. именно он был стандартом для корзин с «горячей» заменой
                                                                                                0
                                                                                                Так тут наоборот было… Сервер был самомсборным, ни разу не брендовым. Но все было сделано на совесть. Хоть на Caviar (неплохие модели, кстати у них были).

                                                                                                А вот на замену привезли как раз под наклейкой HP. Хотя, HP, как всем известно, сама HDD не производит. И они прослужили очень недолго

                                                                                                Ну, тут возможны варианты. Либо эти HP долго лежали на складе где-то невостребованные лет 10 и их решили в розницу спихнуть. Либо сам сервер комплексно стал загибаться — эти сказёвые скоростные диски сами по себе неслабо грелись, а тут на них почти до 70°C температура стала подниматься, несмотря на кулеры в корзинах.
                                                                                      0
                                                                                      Ну, я тоже вспомнил о дисках, у которых сгорал драйвер управления мотором. Физически горел — у чипа образовалась дырка в корпусе. Кажется, они были Quantum. Наконец-то нашел — Quantum Fireball LCT 10, с контроллером мотора TDA524HT.
                                                                                      Но все-таки все эти случаи 15-летней давности и даже больше, исключая проблему с Seagate Barracuda 11.
                                                                                        0
                                                                                        Проблемы IBM 75GXP/60GXP (тех самых «дятлов»

                                                                                        Небольшое уточнение.
                                                                                        IBM DeskStar 75GXP — это как раз дятлы, по кодировке DTLA в название модели накопителя.
                                                                                        А 60GXP — это уже следующее семейство накопителей, с новой кодировкой моделей (вида IC35L060AVER07, что проще для понимания пользователем), т.е. не «дятлы», хотя страдали частью их проблем. И кодовое название семейства было Ericsson. Следующее — было Vancouver (***AVVA*** в коде модели) и тоже страдали «родовой» болячкой
                                                                                        +1

                                                                                        Интеловские ссд на 512 купленные отнюдь не по 100$ умерли поочередно в течении года от нагрузки простой в виде двух виртуалок на одном хдд. Умерли в виде внезапного пропадания из системы, сначала раз в неделю, потом чаще, чаще и чаще… Уж если интел мрет, то я хз что покупать.

                                                                                          0
                                                                                          > Уж если интел мрет, то я хз что покупать.

                                                                                          Пацаны говорят, что новые самсунги, вроде pro 950/960, очень хороши.
                                                                                            0
                                                                                            К сожалению пацаны меняют показания из года в год и то что было очень хорошо тогда — сейчас уже «ну так себе». Да и обосновать замену массива, купленного буквально пару лет назад, все сложней и сложней, несмотря на регулярные временные выходы их строя.
                                                                                              0
                                                                                              Ну в том году (и вроде даже и в позапрошлом), вроде тоже pro серию хвалили…
                                                                                                0
                                                                                                Чисто на правах «частного случая»:
                                                                                                Использую m2-накопители samsung еще с 8хх-серии.
                                                                                                Самый старый (из моих личных) уже «нарезал» данных на 26Тб при доступной емкости в 233Гб.
                                                                                                На диске ОС, программы, Java/PHP проекты.
                                                                                                Всего по моему кругу общения таких дисков примерно с десяток.
                                                                                                Изумительная производительность, ни у кого никаких проблем пока что не было.
                                                                                                Это лишь частное стечение обстоятельств, на «истину» не претендую.

                                                                                                Уточнение: кажется первый диск был взят в самом начале весны 2016-го, значит скоро три года, как трудится.
                                                                                                  0
                                                                                                  Уточнение: кажется первый диск был взят в самом начале весны 2016-го, значит скоро три года, как трудится.

                                                                                                  уже «нарезал» данных на 26Тб

                                                                                                  Это запись примерно по тридцать гигабайт каждый день. Что вы там с ним делаете? О_о
                                                                                                    0
                                                                                                    //картинка-мужик-стол-бутылка.jpg
                                                                                                    Но я же разработчик ПО… QA, Java, десяток-другой браузеров.
                                                                                                    Просто так не мучаю диск, правда-правда.
                                                                                                0
                                                                                                Пацаны говорят, что новые самсунги, вроде pro 950/960, очень хороши.

                                                                                                Ну как «новые»? Уже больше трех лет прошло с появления 950 pro. Впрочем, ничего особо не поменялось, пусть появились и пошустрее накопители, но весьма ненамного. Так что вполне актуально.
                                                                                            +18
                                                                                            Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. С SSD теоретически такого происходить не должно

                                                                                            Почему? Вы же не забывайте, что у HDD есть два типа проблем — отказ механики и отказ электроники. А у SSD — только отказ электроники. Механика в HDD со всех сторон обвешана мониторингом, и именно поэтому вы можете во многих случаях предугадать наступление гаплыка HDD. Но электроника умирает внезапно, такова её природа. Умирает из-за того, что где-то может быть дефект пайки, где-то агрессивный флюс не смыт, где-то слишком высокие температурные колебания привели к образованию микротрещин и т.д. Некоторые проблемы (особенно последняя) иногда частично обратимые, я прекрасно помню процедуру «восстановления» важных данных с флешки через морозилку. Заморозил, считал несколько файлов, нагрелась, отключилась. Снова заморозил, снова несколько файлов, снова отключилась. И так в течении пары часов, пока не считал всё.
                                                                                            Поэтому ничего в отказах SSD особенного нет, просто механическая подсистема HDD обслуживается электронным супервизором, что создаёт иллюзию большей надёжности. Покупайте для промышленных применений более качественные SSD, только и всего.
                                                                                              +11
                                                                                              хеттрик: удлиннитель USB — и читать прямо из морозилки
                                                                                                +6
                                                                                                Фраза «холодный бэкап» заиграла новыми красками
                                                                                                  0
                                                                                                  Не в тему, но вспомнилось, как в одной «инди-игрушке» крайне было полезно делать сегмент базы для бесперебойного питания вида «комната-холодильник с кучей аккумов».
                                                                                                  0

                                                                                                  Часть электроники HDD тоже с мониторингом. Помнится самсунг жаловался на несовпадение контрольной суммы в кеше.

                                                                                                    0
                                                                                                    Часть электроники HDD тоже с мониторингом.

                                                                                                    Ну так и у SSD тоже. Просто количество проблем с мозгами, которые мозги могут самостоятельно диагностировать, несоизмеримо меньше, чем те, которые просто приводят к их неработоспособности.
                                                                                                  +9
                                                                                                  Вы ставите десктопное, дешёвое железо в сервер и чему то потом удивляетесь? Ну-ну. или вы думаете, что серверное железо просто так стоит в несколько раз дороже?
                                                                                                    –1
                                                                                                    Вот вам экземпляр совсем не серверного железа (2,5" ноутбучный винт), используемого в домашнем сервере:
                                                                                                    smartctl -d sat -a /dev/sdb
                                                                                                    Model Family: Hitachi Travelstar 5K160
                                                                                                    Device Model: Hitachi HTS541612J9SA00
                                                                                                    Serial Number: SB2E04H7JPS1JS
                                                                                                    Firmware Version: SBDOC70P
                                                                                                    User Capacity: 120 034 123 776 bytes
                                                                                                    Device is: In smartctl database [for details use: -P show]
                                                                                                    ATA Version is: 7
                                                                                                    ATA Standard is: ATA/ATAPI-7 T13 1532D revision 1
                                                                                                    Local Time is: Mon Dec 31 13:19:14 2018 EET

                                                                                                    Vendor Specific SMART Attributes with Thresholds:
                                                                                                    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
                                                                                                    1 Raw_Read_Error_Rate 0x000b 100 100 062 Pre-fail Always — 0
                                                                                                    2 Throughput_Performance 0x0005 100 100 040 Pre-fail Offline — 0
                                                                                                    3 Spin_Up_Time 0x0007 238 238 033 Pre-fail Always — 1
                                                                                                    4 Start_Stop_Count 0x0012 098 098 000 Old_age Always — 4344
                                                                                                    5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always — 0
                                                                                                    7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always — 0
                                                                                                    8 Seek_Time_Performance 0x0005 100 100 040 Pre-fail Offline — 0
                                                                                                    9 Power_On_Hours 0x0012 001 001 000 Old_age Always — 78445
                                                                                                    10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always — 0
                                                                                                    12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always — 3802
                                                                                                    191 G-Sense_Error_Rate 0x000a 100 100 000 Old_age Always — 0
                                                                                                    192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always — 282
                                                                                                    193 Load_Cycle_Count 0x0012 001 001 000 Old_age Always — 1335388
                                                                                                    194 Temperature_Celsius 0x0002 152 152 000 Old_age Always — 36 (Lifetime Min/Max 13/58)
                                                                                                    196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always — 1
                                                                                                    197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always — 0
                                                                                                    198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline — 0
                                                                                                    199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always — 0
                                                                                                    223 Load_Retry_Count 0x000a 100 100 000 Old_age Always — 0

                                                                                                    Всего 1 «софтовый» бэд при наработке 78445 часов. Неплохо для совсем не серверного железа, а?
                                                                                                      +1
                                                                                                      И что вы этим хотели показать? Вы сравниваете домашний сервер, который 95% времени ничего не делает с продуктивным файловым сервером?
                                                                                                      Такое я вам то же могу показать с домашней файлопомойки, при чём SSD (самый дешёвый, который тогда удалось найти в магазине)
                                                                                                      Model Family: Intel X18-M/X25-M/X25-V G2 SSDs
                                                                                                      Device Model: INTEL SSDSA2M040G2GC
                                                                                                      Serial Number: CVGB036200AV040NGN
                                                                                                      LU WWN Device Id: 5 001517 9593d5447
                                                                                                      Firmware Version: 2CV102HD
                                                                                                      User Capacity: 40 019 582 464 bytes [40,0 GB]
                                                                                                      Sector Size: 512 bytes logical/physical
                                                                                                      Rotation Rate: Solid State Device
                                                                                                      Device is: In smartctl database [for details use: -P show]
                                                                                                      ATA Version is: ATA/ATAPI-7 T13/1532D revision 1
                                                                                                      SATA Version is: SATA 2.6, 3.0 Gb/s
                                                                                                      Local Time is: Mon Dec 31 15:10:24 2018 MSK

                                                                                                      ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
                                                                                                      3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline — 0
                                                                                                      4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline — 0
                                                                                                      5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always — 7
                                                                                                      9 Power_On_Hours 0x0032 100 100 000 Old_age Always — 64868
                                                                                                      12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always — 352
                                                                                                      192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always — 263
                                                                                                      225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline — 609037
                                                                                                      226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always — 12138
                                                                                                      227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always — 0
                                                                                                      228 Workload_Minutes 0x0032 100 100 000 Old_age Always — 749225844
                                                                                                      232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always — 0
                                                                                                      233 Media_Wearout_Indicator 0x0032 084 084 000 Old_age Always — 0
                                                                                                      184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always — 0

                                                                                                      Только это показатель чего? Да ничего, ибо нагрузки совершенно не те
                                                                                                        0
                                                                                                        Да нормальные там в общем-то нагрузки, из-за того, что примерно раз в месяц или чаще там ресинхронизация происходит рейд-массива. 3800 циклов включения-выключения и более миллиона трёхсот тысяч парковок головок говорят, что даже несерверное железо может вполне быть надёжным. Стоимость серверного железа — дольшая гарантия, больший процент выхода из строя на гарантии, и маркетинг.
                                                                                                    +1
                                                                                                    Стоял в одном компе SSD AData. Нормально себя вел, все тесты проходил. Летом начались проблемы с базой 1с, которая на нем находилась. Выглядело так — SMART дает сообщение что повышена температура, потом 1с падает с ошибкой. Тестируешь диск — все ок. Исправляешь ошибку в базе, все работает до нового цикла. Решил проэмулировать работу с базой — получилось что если пишешь одновременно в несколько потоков — я запускал архивирование 10 WinRAR с тестированием — то получаешь такую же ошибку. Поменяли диск на Samsung EVO, работают без проблем.
                                                                                                      +2
                                                                                                      У меня SSD теоретически более качественный, но всё равно пойду-ка я бэкапить.
                                                                                                        +6
                                                                                                        Надо брать Самсунги и не выёживаться.. А скупой платит дважды, хотя, скорее даже, многократно.
                                                                                                        В личном пользовании были OCZ Agility, Toshiba (не помню какой), Samsung SM951 (OEM аналог 950 PRO), Crucial M550 (два последних до сих пор стоят в ноутбуке, которым пользуюсь по 12 часов в день). Так вот, каждый из них работал по 3 года у меня и ни с одним ничего не произошло. Если не покупать самый дешёвый ширпотреб, есть существенный шанс, что он проработает больше срока гарантии и не принесёт с собой никаких проблем.
                                                                                                        Смешно слушать истории «я купил дешёвое говно, а оно сломалось через 2 месяца». Ну так что купил, то и получил.
                                                                                                          0
                                                                                                          Да, ссд от самсунга — это высший класс без преувеличения. Уже 3 диска и нет вопросов.
                                                                                                          +8
                                                                                                          Вода и ни о чём. У HDD тоже были баги в прошивках, которые кирпичили диски. Понятно, что кривая фирмварь может просто упасть, но чаще всего приличные диски (если это не отказ по питанию или сгоревшая микруха) отлично репортят износ.

                                                                                                          Hint: из-за идиотизма распределения кодов в smart'е, attribute 194 — это температура у HDD и износ у SSD.
                                                                                                            +2
                                                                                                            По-моему вы что-то путаете, путаете и ещё раз путаете.
                                                                                                              –2
                                                                                                              Путаю число, не путаю факт, что есть путаница между температурой и износом:

                                                                                                              231 | 0xE7 | Temperature | Drive Temperature
                                                                                                              231 | 0xE7 | SSD Life Left | Indicates the approximate SSD life left, in terms of
                                                                                                              program/erase cycles or Flash blocks currently
                                                                                                              available for use.
                                                                                                                0
                                                                                                                У какого производителя 231 параметр обозначает температуру?
                                                                                                                  0
                                                                                                                  На всех старых дисках и в выводе smartctl trusty (и, по-моему, xenial).
                                                                                                                    0
                                                                                                                    Передо мной лежит старый диск, и температура у него в 194 параметре (без разницы, smartctl это выводит, либо что угодно другое).
                                                                                                                      0
                                                                                                                      А что у него в 231, и как выглядит его smartctl -a?
                                                                                                                        0
                                                                                                                        Параметра 231 у него нет (последний — 199)
                                                                                                                          0
                                                                                                                          Я не могу с ходу найти диск, у которого оно есть, но я точно знаю, что старые версии smartctl показывали 231 как температуру, чем вызывали всеобщее удивление.
                                                                                                                            0
                                                                                                                            Википедия подсказывает:
                                                                                                                            231 0xE7 Life Left (SSDs) or Temperature

                                                                                                                            Previously (pre-2010) occasionally used for Drive Temperature (more typically reported at 0xC2).

                                                                                                                            Так что для температуры таки 194 (0xC2), начиная с 2010 года.
                                                                                                            +1
                                                                                                            Мы столкнулись с неожиданым отказом NVMe дисков SSDPEDKE040T701. Умерли оба, единомоментно, причем без каких-либо странностей или изменения атрибутов.
                                                                                                            Я предполагаю, что возможны проблемы с фирмварем.
                                                                                                              0
                                                                                                              Читал рекомендацию для RAID-1 использовать SSD разных производителей или хотя бы из разных партий с разными прошивками. Тогда шанс одновременного выхода обоих дисков из строя существенно снижается.
                                                                                                                0
                                                                                                                Это справедливо для любых железок (HDD, SSD).
                                                                                                                Дополнительно — использование принципиально разных накопителей в RAID такая себе идея, т.к. в RAID1 мы должны дождаться подтверждения записи от обоих накопителей, иначе — отказ.
                                                                                                                И еще. Проблема не в RAID1 как таковом. Уверен, что аналогичные соображения допустимы и для RAID0, RAID5 и прочих уровней.
                                                                                                                  +1
                                                                                                                  Про одновременный отказ двух носителейв RAID-0 говорить некорректно, т.к. после отказа одного всему рэйду наступает кирдык.

                                                                                                                  Для RAID-5 это допустимо, разумеется, тоже. Но найти для него, допустим, 6-7-8 дисков разных производителей или из разных партий уже проблематичнее.
                                                                                                                    0
                                                                                                                    На самом деле в raid1 можно прекрасно жить в режиме с одним диском. degrade и degrade. Если один диск вылетает, в битмапе у оставшегося диска (битмапе рейда на оставшемся диске) просто помечается, что надо синкать, когда устройство появится.
                                                                                                                      0
                                                                                                                      Да это все понятно, но пока массив degrade любой отказ оставшегося накопителя приводит к потере данных.
                                                                                                                        0
                                                                                                                        и вот в этот момент, точнее в процессе синка вероятность смерти пока еще живого диска резко подскакивает…
                                                                                                                          0
                                                                                                                          Не смерти, а ошибки чтения с него. И это не аффектит рейды собранные из ZFS так, как это происходит с обычными рейдами. ЗФС зарепортит что такой-то файл поврежден, работаем дальше.
                                                                                                                            0
                                                                                                                            Я имею в виду, что когда живой диск начнет активно отдавать данные для наполнения (синхронизации) свежеподкинутого диска — ему может резко поплохеть со всеми вытекающими…
                                                                                                                  • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                      0
                                                                                                                      Спасибо за совет, но, к сожалению, уже не смогу, т.к. поменяли накопители по гарантии.
                                                                                                                      В следующий раз обязательно попробуем.
                                                                                                                      • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                                    +3

                                                                                                                    Чет напомнило историю пятнадцатилетней давности про DVD-резаки LiteOn, которые все накупили из-за низкой стоимости и невероятной способности читать диски произвольной степени потертости. А потом оказалось, что читаемость достигается выкрученной под максимум мощностью лазера, и все эти резаки радостно сыпятся один за другим через полгода-год интенсивного использования.

                                                                                                                      +1
                                                                                                                      А у других лазер выгорал за год. Пока жил в общаге, приносили с десяток разных фирм, на чтение заводских болванок часть еще работала, у остальных даже лазер не светился.
                                                                                                                        +2

                                                                                                                        У меня был Teac (до сих пор не уверен, как правильно это произносится). Читал только заводские и очень бережно хранимые болванки, записанное им читалось абсолютно везде. Был жив пять лет, продан вместе с системником в 2007 году. Не удивлюсь, если жив до сих пор.

                                                                                                                          +1
                                                                                                                          А у меня «пионэр»(последний который покупал) которым практически не пользовался подклинивает механика открытия. Разобрал, оказалось заводская недоработка причем возможно даже массовая. Брал в надежде на качество, с тех пор, доверия к именитым брендам мало, и другие подобные случаи это лишь подтверждали.
                                                                                                                            0
                                                                                                                            >> с тех пор, доверия к именитым брендам мало

                                                                                                                            — Ноутбук Sony (премиум сегмент) у меня прожил меньше всех остальных, меньше года. Проблемы с видеокартой и USB, оказавшимися проблемой всей серии. Навороченный «магниевый» корпус у Самсунга — единственный треснувший корпус (отколотые края, крепления дисплея у всех ломаются).
                                                                                                                              0
                                                                                                                              FZ с нвидией 8600?
                                                                                                                                0
                                                                                                                                Возможно, не помню. 13 дюймов, год ~2008, c nvidia.
                                                                                                                              0
                                                                                                                              Я вот к примеру не запомнил бренд, но когда разбирал один SCSI сидиром, то был очень удивлен щеточкой для очистки головки. Да и сама конструкция была весьма добротная по сравнению с ширпотребом на IDE. Так что бренд не показатель, но бывают модели сделанные на хорошем уровне.
                                                                                                                                0
                                                                                                                                Ну пионер был саташным, но это ему не помогло. Я его покупал то лишь затем, чтобы не остаться без драйверов для сетевой карты, в случае внезапной переустановки окон(или если забыл закинуть на флешку).
                                                                                                                                P.S. Собственно за год он использовался от силы пару раз, при чистой установке окон.
                                                                                                                              0
                                                                                                                              «Teac (до сих пор не уверен, как правильно это произносится)»

                                                                                                                              тик.
                                                                                                                                0
                                                                                                                                Нет, не так.
                                                                                                                                TEAC Corporation (ティアック株式会社 Tiakku Kabushiki-gaisha) (/ˈtiːæk/) is an electronics company based in Japan.
                                                                                                                            0

                                                                                                                            Из строя лайтоны выходи на уровне остальных. Но записывали и читали очень достойно. Лучше заменить через год, чем плохо писать и нельзя прочитать, но два года службы.
                                                                                                                            К примеру покупка нека (3500 кажется, не помню) привела к необходимости купить читающий привод.

                                                                                                                              0

                                                                                                                              Не могу подтвердить. Жил в то время в общаге, был буквально окружен компами сожителей, потому моя статистика кажется репрезентативной. LiteON слетели у большинства купивших в пределах полутора лет. Точно не одна бракованная партия, так как было много иногородних, которые привозили купленные по месту жительства компы.

                                                                                                                            0
                                                                                                                            HDD тоже бывает умирают внезапно. Была головка на блине и вот она превратилась в пыль, а на диске образовался запил… Благо сложной процедурой переустановки блинов на донора удалось восстановить данные.
                                                                                                                              0

                                                                                                                              Intel 540 пропал из системы, после очередной перезагрузки. В сервисе сказали всё норм. Помогло обновление BIOS на матери. Так что проблема может быть не только в диске. Есть подозрение, что ошибка возникла при заполнении больше половины диска.

                                                                                                                                +2
                                                                                                                                К сожалению, в статье нет совершенно никакой информации о том в каком режиме работал почивший, его срок службы и сколько уже было данных записано относительно TBW в спецификации, даже конкретная модель не указана. Вполне может быть что он уже был на границе (или даже за ней) и использовался очень интенсивно (ZFS хороший генератор нагрузки сам по себе, за счёт контрольных сумм и «деревянной» структуры записи).

                                                                                                                                Если верить некоторым тестам на живучесть, многие SSD (даже самсунги) спокойно переживают записи за пределами спецификаций, молчат в SMART до последнего, но при этом превышают TBW в несколько раз, а умирают молча и внезапно.

                                                                                                                                С другой стороны, массовых жалоб о внезапной смерти SSD при обычных декстопных нагрузках вроде как в сети не наблюдается, так что для обычных пользователей ситуация не настолько ужасна, как мне кажется.

                                                                                                                                Сервера, конечно, это другое дело, но если мониторить TBW (после него заканчивается гарантия) и предупредительно их менять при достижении 95% — то можно избежать проблем в дальнейшем. Мало кто так делает, на самом деле — все ждут пока «сам умрёт», что, безусловно, не может сказаться на надёжности положительно.
                                                                                                                                  0
                                                                                                                                  но если мониторить TBW

                                                                                                                                  Легко сказать «мониторить»… вывод S.M.A.R.T-параметров отдельных дисков из RAID в гуёвый интерфейс встречал только у RocketRAID-контроллера. И то приходится их мониторить в ручном режиме — автоматический аларм по падению значений у него не предусмотрен. У других RAID-контроллеров можно найти CLI-утилиты для этих целей. Но пользоваться ими реально неудобно.
                                                                                                                                    +2
                                                                                                                                    Мы точно всё ещё про серверы говорим? Если да — разумеется, все рейдовые утилиты и смарт давно прикручены к мониторингу. Ну или увольте админа :)
                                                                                                                                      0
                                                                                                                                      Не все так просто, как на самом деле.

                                                                                                                                      В том же HighPoint RocketRAID нет нативных средств для работы со S.M.A.R.T. Посмотреть значения параметров в гуёвом интерфейсе можно, но даже скопировать их оттуда нельзя, не говоря об автоматической обработке.

                                                                                                                                      Отсутствует возможность их получения и сторонней утилитой:

                                                                                                                                      https://www.smartmontools.org/wiki/Supported_RAID-Controllers

                                                                                                                                      Вот и приходится периодически смотреть вручную. Но и это реально помогает обнаружить проблемы, которые еще не алармятся.
                                                                                                                                        0
                                                                                                                                        Я извиняюсь, но первый раз слышу про этого производителя. Всё как-то доводилось работать с LSI, Adaptec и Intel…
                                                                                                                                          0
                                                                                                                                          Ну мы тоже сейчас предпочитаем форки LSI. Хотя бы из-за удобства пользования RAID-менеджером.

                                                                                                                                          А HighPoint тоже весьма известный производитель хранилищ данных и контроллеров. И на более новых моделях у них поудобнее все продумано. Но мы этот сервер приобрели еще лет 12 назад. Недавно последний HDD из начальной поставки заменили — как раз по S.M.A.R.T. определили, что сыпаться начинает.
                                                                                                                                      0
                                                                                                                                      LSI(или как они сейчас зовутся) — умеет, Adaptec — тоже умеет, если у вас вне линукса посмотреть и настроить алармы на обвал смарта индивиудального диска нельзя, может пора сменить ОС, используемую на хранилке?
                                                                                                                                      0

                                                                                                                                      Intel 540s. Помер не совсем внезапно, постепенно росли значения аттрибутов 5 и 9. Вот смарт за час до смерти:


                                                                                                                                      SMART Attributes Data Structure revision number: 1
                                                                                                                                      Vendor Specific SMART Attributes with Thresholds:
                                                                                                                                      ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
                                                                                                                                        5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    387
                                                                                                                                        9 Power_On_Hours_and_Msec -O--CK   100   100   000    -    241h+00m+00.000s
                                                                                                                                       12 Power_Cycle_Count       -O--CK   100   100   000    -    145
                                                                                                                                      170 Available_Reservd_Space PO--CK   095   095   010    -    0
                                                                                                                                      171 Program_Fail_Count      -O--CK   100   100   010    -    0
                                                                                                                                      172 Erase_Fail_Count        -O--CK   100   100   010    -    0
                                                                                                                                      174 Unexpect_Power_Loss_Ct  -O--CK   100   100   000    -    9
                                                                                                                                      183 SATA_Downshift_Count    -O--CK   100   100   000    -    0
                                                                                                                                      184 End-to-End_Error        PO--CK   100   100   090    -    0
                                                                                                                                      187 Uncorrectable_Error_Cnt -O--CK   100   100   000    -    199
                                                                                                                                      190 Airflow_Temperature_Cel -O--CK   033   048   000    -    33 (Min/Max 25/48)
                                                                                                                                      192 Power-Off_Retract_Count -O--CK   100   100   000    -    9
                                                                                                                                      199 UDMA_CRC_Error_Count    -O--CK   100   100   000    -    0
                                                                                                                                      225 Host_Writes_32MiB       -O--CK   100   100   000    -    89514
                                                                                                                                      226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    0
                                                                                                                                      227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    0
                                                                                                                                      228 Workload_Minutes        -O--CK   100   100   000    -    0
                                                                                                                                      232 Available_Reservd_Space PO--CK   095   095   010    -    0
                                                                                                                                      233 Media_Wearout_Indicator -O--CK   099   099   000    -    0
                                                                                                                                      241 Total_LBAs_Written      -O--CK   100   100   000    -    89514
                                                                                                                                      242 Total_LBAs_Read         -O--CK   100   100   000    -    39026
                                                                                                                                      249 NAND_Writes_1GiB        -O--CK   100   100   000    -    814
                                                                                                                                      252 Unknown_Attribute       -O--CK   100   100   000    -    3

                                                                                                                                      Обратите внимание на TBW и на соотношение 241 и 249. Хост подал на запись 2797 GiB, на диск записано 814 GiB.

                                                                                                                                        0
                                                                                                                                        Это как? В ячейки должно писаться минимум столько же как пришло с хоста. Обычно больше. Исключение, когда может быть немного меньше это контроллеры со сжатием данных на лету, но тут не такой случай.

                                                                                                                                        Предположу что на диске обнуляли (специально либо был сбой) показатели SMART. При этом часть показателей обнулилась, а часть продолжала отсчитываться с самого начала эксплуатации диска.

                                                                                                                                        На это сильно намекает общее время наработки — всего 214 часов, т.е. 10 дней при круглосуточной работе или месяца 1.5 если часов по 5 в день. За такой срок так ушатать диск практически не реально, если конечно это не постоянный стресс-тест был.
                                                                                                                                          0

                                                                                                                                          Ответил ниже.

                                                                                                                                          0
                                                                                                                                          Для этой серии, насколько я знаю, Intel не указывает TBW (и много других важных параметров), но для меня сигналом к замене послужил бы первый перераспределенный сектор или первое использование резервной области.

                                                                                                                                          Разница в значениях host writes и nand writes (если они правдивы) скорее всего связана с кэшем (если он там есть, ибо спецификация молчит и об этом тоже), другого логичного объяснения я не вижу.

                                                                                                                                          И конечно же, нельзя исключить что именно конкретный экземпляр оказался дефектным и поэтому прожил так недолго (если это единичный случай), ибо записанные 840GiB даже при размере SSD в 60GB было бы слишком мало, даже для TLC. С другой стороны, раз уж у него гарантия 5 лет, то им явно проще их менять чем делать надёжными.

                                                                                                                                          По своему опыту выбора SSD для серверов скажу, что просто даже не смотрю в сторону тех где в спецификации так мало данных (пусть даже это известный бренд), особенно если не упоминаются TBW и наличие кэша (как DRAM так и SLC). Если выбора нет, то относительно безопасно оценивать количество циклов перезаписи для TLC в районе 250-300, но это имеет смысл только если SMART позволяет мониторить NAND writes.
                                                                                                                                            0
                                                                                                                                            На рабочем ноутбуке уже есть два переназначенных сектора на Intel 320 Flash (появились на 2-м году эксплуатации). И ничего — все живет. Но это не сервер, в котором особые требования к сохранности данных.
                                                                                                                                              0
                                                                                                                                              Никто ж не спорит, оно может ещё долго прожить, но для случаев когда доступность и сохранность особенно важны (т.е. позволить себе неожиданный даунтайм для смены диска и восстановления тяжко, и это не RAID) — я бы сразу начал искать замену.

                                                                                                                                              Иногда случается когда между первым появлением переназначенных секторов и их лавинообразным ростом или даже смертью диска проходит совсем немного времени — поэтому лучше упредить такую ситуацию, если есть возможность. SSD нынче дешевы, не то что 10 лет назад.

                                                                                                                                              Даже если у вас регулярные бэкапы или там нет ничего «такого», представьте ситуацию — после очередной перезагрузки/включения (или в процессе работы) диск вдруг умирает и вам внезапно приходится тратить несколько часов времени (пусть даже «всего» час-два) на поиск замены, восстановление всего что нужно и т.п. — приятного мало, однако. Если же вы на выезде в этот момент — ситуация ещё неприятней, поэтому я лично предпочитаю действовать с упреждением (а на выезд обычно беру с собой запасной ноутбук поменьше, но с копией всего что на первом).
                                                                                                                                                0
                                                                                                                                                лавинообразное нарастание количества бэдов — это только про харды
                                                                                                                                                говорит о какой-нибудь механической проблеме, нарушении герметичности, например
                                                                                                                                                  0
                                                                                                                                                  В хардах же нет герметичности, кроме небольшого количества заранее запрограммированных на смерть через несколько лет моделей дисков, которые накачаны гелием. Слово «гермоблок» в отношении харда — это нечто вроде эвфемизма.
                                                                                                                                                    0
                                                                                                                                                    пылезащита и фильтры по-любому есть
                                                                                                                                                    вот когда они не справляются или по каким-то другим причинам пыль внутри появляется, начинают бэды появляться