Комментарии 7
Выглядит интересно, спасибо
Почему я не люблю push метрики, так это из-за проблем с пониманием, а жив ли хост. Для меня это самая важная метрика. Агент на машине может перестать слать метрики по разным причинам и узнать об этом мы можем только по отсутствию данных. Сколько бы я не искал и не спрашивал коллег, все изворачиваются как могут. Обычно настраивают дублирующие алерты в графане, на отсутствие данных. Но, как по мне, это костыли.
Как вы решаете эту проблему?
У нас есть в том числе безагентский мониторинг, который удаленно обращается к хосту и проверяет его здоровье. Причем работает автопостановка - как только хост появляется в CMDB (инвентаризационной системе), он сразу попадает под мониторинг.
За здоровьем агента telegraf на хосте следит helper - крошечный сервис, обновляющий конфигурацию telegraf и следящий за его ошибками.
В pull модели тоже многое может пойти не так... умрет экспортер, скрейп будет слишком долгим или мы будем не успевать опрашивать все targets.
@bocharovf Вы реализовали сами интеграцию open source vmagent и kafka? На сколько я вижу в документации указано, что такая интеграция только в Enterprise, а на картинке https://habrastorage.org/r/w1560/getpro/habr/upload_files/a89/e59/e0a/a89e59e0adadc4230b3a9fd812506e54.png у вас такая интеграция имеется. В чем подвох?
Вы правы, работа через Kafka есть только в Enterprise, поэтому нам пришлось сделать два собственных компонента: vmbuffer producer (имитирующий vminsert) и vmbuffer consumer. В этой статье схема упрощена, полностью как это работает можно посмотреть в презентации к докладу по Victoria Metrics на 18 слайде.
Одна платформа, чтобы мониторить всех: как мы осуществляем трассировку, работаем с логами и метриками во всей экосистеме