Обновить

Комментарии 2

Статья интересная. По большей части, база, но тем не менее. Конечно интересно почитать про то как вы измеряете все эти показатели, latency-процентили, и пр. Вы пишете что направлете алерты прямо к разработчикам, как вы настраиваете алерты, чтобы у вашей команды не возникало «алертной слепоты»? Из локи и прометеуса можно достать много, но как извлечь из этого по настоящему полезные сигналы, так чтобы это не превращалось в шум, отдельное искусство. Было бы очень интересно почитать в эту сторону, в общем.

Про отдельное искусство вы очень точно подметили.

Мы в итоге пришли к простому правилу: алерт — это не «что-то странное в графике», а «пользователь/бизнес уже страдает или вот-вот начнёт страдать». Поэтому стараемся держать очень небольшой набор алертов, остальное — только для дашбордов и диагностики.

Лично мне нравится, когда систему можно рассматривать как набор состояний (условно как конечный автомат): ещё на этапе разработки понятно, в каких состояниях она может находиться и сколько времени обычно занимает переход между ними. Такое моделирование потом сильно помогает и в мониторинге — проще замечать задержки в переходах между состояниями и другие аномалии.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации