Комментарии 5
"Недавно она помогла нам найти 13 битых страниц в 20-терабайтной БД всего за 40 минут, при том что была развернута на весьма нестабильно работающей дисковой системе одного из наших клиентов."
"Курить я буду, но пить не брошу"
Может быть, не стоило и связываться с "весьма нестабильно работающей дисковой системой"?
Возможно задача была успеть любой ценой вытащить данные до того как диски окончательно рассыпятся, попутно проверив их консистентность и не создать излишней нагрузки на пациента.
Вероятно нестабильная это например развалился raid, а мониторинга этого небыло и увидили уже поздно, когда данные повредились
Или банально сбоит диск в raid, но массив не переходит в состояние даградирован, но данные портятся
Клиентскую поддержку часто вызывают тогда, когда уже "поздно пить боржоми". Или почти поздно. В этот момент "что делали" - не так важно, важно "где оказались" и "что будем делать".
Битый или небитый? Как обеспечить целостность данных в Postgres Pro