Comments 2
Насчет высоких перцентилей. В книге "Запускаем Prometheys" от O'Reilly этот случай тоже разбирался.
Там посыл был такой, что превышения высоких перцентилей(99.9+%) часто генерируют VIP клиенты, которые как раз интересны бизнесу в первую очередь. У них может быть большая история заказов, всякие сложные сохраненные фильтры товаров и т.д. А это все как раз и приводит к медленным ответам.
Вывод такой, что нужно обязательно смотреть высокие перцентили и в идеале собирать как можно больше метрик, чтобы было проще локализовать медленные запросы
хорошее дополнение, спасибо
единственное хотел бы подсветить про "собирать как можно больше метрик". тут есть 2 подводных камня. первый это "витрина дашбордов" — когда мы тонем в потоке поступающей информации (ее слишком много и она не абстрагирована по уровням) и когда мы кладем собственный обсервабилити потоком данных (высокая кардинальность, частые сэмплы, неагрегированные лейблы), или получаем от провайдера неприятный счет за хранение и ингест.
это не отменяет справедливости ваших слов, просто нужно без фанатизма относиться к коллекционированию метрик
Когда дашборды лгут. Гайд по перцентилям, очередям и e2e-бюджету