В воскресенье с утра на почту пришло письмо от меня. В нём сообщалось что на Жорике проблема с диском: Device: /dev/sdd [SAT], ATA error count increased from 1 to 3
Подключился, проверил, 3 ошибки в одном и том же секторе. RAID массив с ними справился. Но диск похоже пора менять.
Сначала попробовал записать ноли в проблемный сектор, может диск сможет использовать резервы. Но увы, это не помогло. Ладно, в статистике указано, что диск работает уже почти 6 лет. Пора ему на покой.
Пошёл смотреть что я могу приобрести и очумел. HDD на 1 Тб стоят 10000 рублей!!! В начале года покупал Seagate Barracuda на 1 Тб за 3500 и думал что дороговато. Видимо такие ценники связаны с указом проверять фуры на границе Казахстана, выяснилось что большинство товара ввозится без документов. Прощай дешёвый китайский импорт.
В интернетах пишут про выросшие в три раза ценники на оперативку и жёсткие диски из-за дата центров.
Делать нечего, съездил, купил, Seagate SkyHawk ST1000VX013 за 9799 рублей.
RPM — 5400 об/мин
Кэш — 256 МБ
RAID Edition — официально поддерживает RAID
Оптимизирован для 24/7 работы, MTBF ~1 млн часов
Поддержка TLER (предотвращает преждевременное исключение диска из массива при временных ошибках чтения)

Подключаюсь к Жорику, останавливаю все контейнеры.
Вот так вот выглядит мой RAID 5 массив
cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] md0 : active raid5 sdc[1] sdd[3] sdb[0] 1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU] bitmap: 0/8 pages [0KB], 65536KB chunk unused devices: <none>
Проверяю что массив ничто не использует: sudo lsof +D /mnt/raid5
Демонтирую массив: sudo umount /mnt/raid5
Проверяю: mount | grep raid5
Помечаю старый диск как неисправный и удаляю его
sudo mdadm --fail /dev/md0 /dev/sdd` mdadm: set /dev/sdd faulty in /dev/md0 sudo mdadm --remove /dev/md0 /dev/sdd mdadm: hot removed /dev/sdd from /dev/md0 cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] md0 : active raid5 sdc[1] sdb[0] 1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] bitmap: 0/8 pages [0KB], 65536KB chunk unused devices: <none>
Выключаю сервер: sudo shutdown -h now
На почту прилетело письмо, не зря я настраивал мониторинг дисков:
This is an automatically generated mail message. Fail event detected on md device /dev/md0, component device /dev/sdd The /proc/mdstat file currently contains the following: Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] md0 : active raid5 sdc[1] sdd[3](F) sdb[0] 1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] bitmap: 0/8 pages [0KB], 65536KB chunk unused devices: <none>
Меняю диск. Важно написать серийник диска сбоку, что бы потом не искать его в случае чего.



Запускаю, проверяю что система видит новый диск
lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTS sda 8:0 0 931.5G 0 disk |-sda1 8:1 0 1M 0 part |-sda2 8:2 0 2G 0 part /boot `-sda3 8:3 0 929.5G 0 part `-ubuntu--vg-ubuntu--lv 252:0 0 100G 0 lvm / sdb 8:16 0 931.5G 0 disk `-md0 9:0 0 1.8T 0 raid5 /mnt/raid5 sdc 8:32 0 931.5G 0 disk `-md0 9:0 0 1.8T 0 raid5 /mnt/raid5 sdd 8:48 0 931.5G 0 disk
Добавляю новый диск в RAID 5 массив
sudo mdadm --add /dev/md0 /dev/sdd mdadm: added /dev/sdd
Проверяю, началась ли синхронизация
cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] md0 : active raid5 sdd[3] sdb[0] sdc[1] 1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] [>....................] recovery = 0.5% (5075676/976630272) finish=102.0min speed=158614K/sec bitmap: 3/8 pages [12KB], 65536KB chunk unused devices: <none>
Включаю слежку за синхронизацией: watch -n 5 cat /proc/mdstat
Every 5.0s: cat /proc/mdstat zhorik: Sun Dec 7 15:40:35 2025 Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] md0 : active raid5 sdd[3] sdb[0] sdc[1] 1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] [=>...................] recovery = 9.8% (96380052/976630272) finish=88.9min speed=164869K/sec bitmap: 3/8 pages [12KB], 65536KB chunk unused devices: <none>
Важно не выключать и не перезагружать сервер, пока синхронизация не завершится. Процесс может занять много часов, в зависимости от скорости дисков и объёма данных.
Дождался восстановления массива, проверяю
cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] md0 : active raid5 sdd[3] sdb[0] sdc[1] 1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU] bitmap: 3/8 pages [12KB], 65536KB chunk # [UUU] - все три диска активны, синхронизированы, ошибок нет unused devices: <none> sudo mdadm --detail /dev/md0 /dev/md0: Version : 1.2 Creation Time : Mon Mar 24 11:17:41 2025 Raid Level : raid5 Array Size : 1953260544 (1862.77 GiB 2000.14 GB) Used Dev Size : 976630272 (931.39 GiB 1000.07 GB) Raid Devices : 3 Total Devices : 3 Persistence : Superblock is persistent Intent Bitmap : Internal Update Time : Sun Dec 7 17:27:32 2025 State : clean # массив в порядке Active Devices : 3 # все три диска активны Working Devices : 3 Failed Devices : 0 # проблемных дисков нет Spare Devices : 0 Layout : left-symmetric Chunk Size : 512K Consistency Policy : bitmap Name : zhorik:0 (local to host zhorik) UUID : 13a46a0d:51848ca8:9d9c2f7d:c6c54c77 Events : 13784 Number Major Minor RaidDevice State 0 8 16 0 active sync /dev/sdb 1 8 32 1 active sync /dev/sdc 3 8 48 2 active sync /dev/sdd
Массив смонтировался обратно автоматически при запуске, поэтому мне нужно только запустить свои контейнеры и всё должно работать.
# посмотрю инфу про новый диск sudo smartctl -i /dev/sdd smartctl 7.4 2023-08-01 r5530 [x86_64-linux-6.8.0-88-generic] (local build) Copyright (C) 2002-23, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Device Model: ST1000VX013-3CV10C Serial Number: WWD4E571 LU WWN Device Id: 5 000c50 0fb8c85aa Firmware Version: CV10 User Capacity: 1,000,204,886,016 bytes [1.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Form Factor: 3.5 inches Device is: Not in smartctl database 7.3/5528 ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Sun Dec 7 17:35:34 2025 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled
