Иногда для того, чтобы выяснить, что дохнет HDD, требуется среагировать на ошибки, выявленные прикладным ПО / Хабр

Взял за правило всегда ставить все обновления ОС, возможно с небольшой задержкой (до недели), также поставил специальное приложение (APP Center) от производителя материнской платы, которое следит за обновлением драйверов и некоторых программ, а также имеет в составе такие полезные программы, как, например, настройка работы вентиляторов или обновление UEFI (в 2018 году пришлось обновить 3 раза из-за выявленных проблем в процессорах Intel). В этом приложении до последнего времени всё работало, как ожидалось. Каждый день проверял, нет ли чего нового и обычно сразу ставил. Так было до недавнего времени. Когда пришло обновления ПО звуковой карты (оно полностью удаляло классическое приложение и ставило новое), подождал немного и решил установить. Небольшая проблема APP Center в том, что он предлагает установить или обновить ещё ряд программ, которые мне не нужны, например антивирус, а купленный меня вполне устраивает, поэтому перед обновлениями всегда пробегаюсь по списку и снимаю ненужные галки. Так было и на этот раз. Но что-то пошло не так.

Вообще вкладок обычно две, на одной внизу кнопка «Обновить», на другой «Устанавливать», на каждой «Отменить». Одновременно видно содержимое только одной вкладки. В тот день появилась третья. Можно было бы теперь вернуться на момент перед инцидентом и выложить сюда скриншот, а потом вернуться на текущий момент (резервные копии, хотя и старого формата, пока ещё не удалил), но стараюсь без необходимости восстановлением Acronis True Image не пользоваться — даже проблемы сначала пытаюсь решить обычными способами. И уж тем более не перепрыгиваю в различные состояния системы из-за желания сделать скриншот (хотя восстановление происходит быстро и запускается прямо из работающей ОС, требуется только разрешить перезагрузку). Поэтому полагаюсь на память. А она может подвести: в тот день несколько раз пробегал по вкладкам. Делал, вроде, всё логично, но что-то не учёл.

Перед обновлением не заглянул на третью вкладку, где приложение также поставило галки напротив обновления драйверов на сетевую карту и HDD. Я, если и хотел обновить их, то не в этот день. Поэтому, когда увидел, что-то неожиданное, сразу обновление остановил. Ну и, поскольку видел, что часть драйверов установилась, а часть нет, откатился на утреннюю копию системы с помощью Acronis True Image 2019, что иногда делал в подобных случаях, чтобы завтра обновиться, а пока заняться другими делами. Весь день проработал без проблем, а на следующее утро резервная копия Acronis не создалась из-за ошибок жёсткого диска. Очевидное решение — выполнить chkdsk. Проверка не прошла. Тогда chkdsk c: /scan /v /r. Нашлись ошибки в кеше Хрома, чтобы исправить нужно было перезагрузиться. Согласился. Это было последнее, что удалось сделать.

При загрузке система выпала в BSOD и начала перезагружаться до следующего BSODа и так в цикле. До рабочего стола не доходило. Не проблема: у меня резервные копии хранятся на внешнем USB HDD, на котором установлен Acronis Survival Kit, который при загрузке позволяет запустить восстановление резервной копии в среде WinRE. Неудача. Программа рекомендовала загрузиться с Linux флешки Acronis и продолжить восстановление. А вот этой флешки я заранее не сделал. Зато была флешка RecoveryDrive, с неё и загрузился (чтобы воспользоваться чужим компьютером, пришлось бы ждать — было раннее утро) и поставил на компьютер чистую систему. Установил True Image и создал-таки загрузочную флешку с Linux версией этого ПО.

Восстановил копию системы на вечер перед инцидентом и опять проверил жёсткий диск — те же ошибки. Покопался в журнале «Система», нашёл, что проблема, скорее всего, в одном фильтре файловой системы (ошибки возникали сразу после его загрузки, к тому же дата уж больно древняя). На этот раз APP Center (в этой копии) уже не предлагал обновиться, поэтому восстановился на последнюю копию перед инцидентом. Успешно обновил все драйвера, опять всё проверил. Дополнительно поставил smartmontools. Оказалось, что за это время S.M.A.R.T. успел переназначить больше 2200 секторов (почти 100%), в общем HDD испорчен, хотя проблема не в дефектах на поверхности диска, а только софтовая. Но по крайней мере всё работало. До тех пор, пока не купил подписку на Acronis True Image 2020.

Обновился и опять не смог сделать копию. Точнее, иногда копия делалась, иногда нет из-за ошибок HDD. Написал в техподдержку Acronis (штатные средства не выявляли проблем) и продолжил попытки найти, что не даёт работать на этот раз. Проверил с помощью chkdsk ещё и скрытые диски — нет проблем. Добрался до SeaTools – ПО от производителя HDD как раз для таких случаев. Вот оно и выявило проблему — тест DST не проходил. Предлагалось создать Linux флешку и продолжить ремонт, загрузившись с неё. Что я и сделал. DST также не проходил до конца, запустил полную проверку, а затем короткий ремонт. После этого DST прошёл. И Acronis True Image 2020 стал без проблем делать копии. Но вопросы остались.

После ремонта smartctl показал, что количество переназаначенных секторов не увеличилось, chkdsk (включая скрытые диски) также не показал увеличения числа дефектных секторов, похоже, проблема полностью не решена и, возможно, проявится в будущем. А это значит, что, наверно, придётся менять HDD. Кстати, поддержка Acronis в понедельник ответила (я отправлял запрос в субботу), но проблема мной была уже решена (хотя купить за рубли недорого Acronis True Image в России уже нельзя, но поддержка для физлиц всё-таки есть, привык с 2010 года к этому софту, менять не собираюсь, буду платить в Евро теперь).

Возможно, специалисты в области восстановления данных смогут прояснить, верны ли были мои действия и выводы. Сразу скажу, что теперь в Windows 10 восстановление заведомо работоспособной VSS копии не даёт уже уверенности в дальнейшей её нормальной работе.

UPD: Sergey_datex пишет, что диск сдох. Наверно, так и есть.
UPD: Поправил заголовок после комментария oller
UPD: В качестве некоторого вывода к статье вполне, как мне мажется, может подойти этот мой комментарий.
UPD: Первый сбой диска проявился примерно через полгода после публикации этой статьи. И был связан опять с обновлением, на этот раз самого App Center. Это обновление не прилетело пока автоматически, но появилось на сайте и лежало с декабря, вроде. Решил, что уже пора ставить и установил. Вскоре начались проблемы у Acronis True Image – слетели практически все настройки бэкапов, а это важная часть его работы. Атрибут 5 S.M.A.R.T. увеличился при этом незначительно. Восстановил вчерашнюю копию диска C:, но тут ждал ещё неприятный сюрприз. Восстановление проблемы не решило, а после загрузки ОС (я внешний HDD, с которого прошло восстановление, от компьютера при этом не отсоединял) оказалось, что всё содержимое папки с последними бэкапами, а там было несколько цепочек (несколько полных версий, за каждой — 10 инкрементных копий), исчезло. То есть папка, в которой они лежали оказалась пустой. Здесь и спасла схема 3-2-1. Восстановил с последней еженедельной резервной копии с другого внешнего HDD. На этот раз запускал восстановление не из работающей ОС, а с помощью Acronis Survival Kit. Поставил галку «Выключить компьютер после завершения операции» и отсоединил диск с бэкапами от компьютера перед загрузкой ОС. Но при запуске короткого теста DST вновь выявились проблемы, которые привычно уже решил описанным выше методом. Нормальная работа продолжалась дней 10. А потом диск начал сыпаться. За три дня атрибут 5 увеличился почти до 6500, всё периодически зависало, chkdsk обнаруживал и исправлял различные ошибки, тест DST то не проходил, то благополучно завершался. Купил новый HDD того же объёма, но уже другого производителя, восстановил всё содержимое старого HDD с имеющихся бэкапов практически без проблем и довольно быстро. Наблюдаю теперь за состоянием нового диска через smartctl -a с той же периодичностью.