Статья интересная. По большей части, база, но тем не менее. Конечно интересно почитать про то как вы измеряете все эти показатели, latency-процентили, и пр. Вы пишете что направлете алерты прямо к разработчикам, как вы настраиваете алерты, чтобы у вашей команды не возникало «алертной слепоты»? Из локи и прометеуса можно достать много, но как извлечь из этого по настоящему полезные сигналы, так чтобы это не превращалось в шум, отдельное искусство. Было бы очень интересно почитать в эту сторону, в общем.
Статья интересная. По большей части, база, но тем не менее. Конечно интересно почитать про то как вы измеряете все эти показатели, latency-процентили, и пр. Вы пишете что направлете алерты прямо к разработчикам, как вы настраиваете алерты, чтобы у вашей команды не возникало «алертной слепоты»? Из локи и прометеуса можно достать много, но как извлечь из этого по настоящему полезные сигналы, так чтобы это не превращалось в шум, отдельное искусство. Было бы очень интересно почитать в эту сторону, в общем.