Comments 1
По аппаратным рейдам всё хуже. Состояние батарейки контролировать надо. Если рейд тупой, то плохой батарейкой он превратит данные в кашу при внезапном power off. Если рейд умный и сам тестирует батарейку периодически, то плохая батарейка превратит writeback в writethrough, то есть (для не high-end устройств) превратит быстрый сервер в калеку с "непонятно почему всё тормозит" (а тормозить будут fsync/flush).
У рейдов состояние дисков куда более сложное, чем кажется. Medium Error автоматически не приводит к выкидыванию диска из рейда, если происходит редко, но его наличие в рейде может оставить массив без возможности ребилда.
Сами диски могут оказаться "полудохлыми" и работать, но на очень низких скоростях (из-за вибраций, например) - когда в продакшене HDD выдаёт 1Мб/с, это даже хуже, чем просто сдохший диск.
nvme может начать срать PCI-E recoverable ошибками
[2366832.539549] pcieport 0000:00:1d.0: AER: Multiple Corrected error received: 0000:00:1d.0
[2366832.539587] pcieport 0000:00:1d.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[2366832.539597] pcieport 0000:00:1d.0: device [8086:9d18] error status/mask=00000001/00002000
[2366832.539609] pcieport 0000:00:1d.0: [ 0] RxErr (First)
[2366832.539620] pcieport 0000:00:1d.0: AER: Error of this Agent is reported first
[2366832.539636] nvme 0000:3c:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[2366832.539645] nvme 0000:3c:00.0: device [1179:0115] error status/mask=00000001/00000000
[2366832.539655] nvme 0000:3c:00.0: [ 0] RxErr (First)
[2380387.918974] pcieport 0000:00:1d.0: AER: Corrected error received: 0000:00:1d.0
[2380387.919072] pcieport 0000:00:1d.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[2380387.919087] pcieport 0000:00:1d.0: device [8086:9d18] error status/mask=00000001/00002000
[2380387.919103] pcieport 0000:00:1d.0: [ 0] RxErr (First)
И вы точно не хотите такое на сервере (хоть на nvme нет ошибок).
Мониторинг начинается с метрик, или Как не сделать из алертов белый шум