bocharovf 27 сен в 10:00

Одна платформа, чтобы мониторить всех: как мы осуществляем трассировку, работаем с логами и метриками во всей экосистеме

Средний

6 мин

6.2K

Блог компании МТССистемное администрирование*IT-инфраструктура*DevOps*

Кейс

+19

Комментарии 7

Donquih0te 28 сен в 09:29

Выглядит интересно, спасибо

diver22 29 сен в 22:47

Почему я не люблю push метрики, так это из-за проблем с пониманием, а жив ли хост. Для меня это самая важная метрика. Агент на машине может перестать слать метрики по разным причинам и узнать об этом мы можем только по отсутствию данных. Сколько бы я не искал и не спрашивал коллег, все изворачиваются как могут. Обычно настраивают дублирующие алерты в графане, на отсутствие данных. Но, как по мне, это костыли.

Как вы решаете эту проблему?

bocharovf 29 сен в 23:06

У нас есть в том числе безагентский мониторинг, который удаленно обращается к хосту и проверяет его здоровье. Причем работает автопостановка - как только хост появляется в CMDB (инвентаризационной системе), он сразу попадает под мониторинг.

За здоровьем агента telegraf на хосте следит helper - крошечный сервис, обновляющий конфигурацию telegraf и следящий за его ошибками.

В pull модели тоже многое может пойти не так... умрет экспортер, скрейп будет слишком долгим или мы будем не успевать опрашивать все targets.

melkorus 30 сен в 12:21

Подскажите пожалуйста, какую CMDB вы используете и как интегрировали её с системами ? Возможно есть уже статьи ?

bocharovf 30 сен в 13:22

CMDB у нас собственной разработки, она получает события от внутреннего облака, где разворачиваются хосты, умеет в дискаверинг. А мы по API забираем из нее изменения.

Статью по ней нашел только очень древнюю, с тех пор она получила и новый интерфейс и новые возможности.

denaspireone 30 сен в 12:49

@bocharovf Вы реализовали сами интеграцию open source vmagent и kafka? На сколько я вижу в документации указано, что такая интеграция только в Enterprise, а на картинке https://habrastorage.org/r/w1560/getpro/habr/upload_files/a89/e59/e0a/a89e59e0adadc4230b3a9fd812506e54.png у вас такая интеграция имеется. В чем подвох?

bocharovf 30 сен в 14:13

Вы правы, работа через Kafka есть только в Enterprise, поэтому нам пришлось сделать два собственных компонента: vmbuffer producer (имитирующий vminsert) и vmbuffer consumer. В этой статье схема упрощена, полностью как это работает можно посмотреть в презентации к докладу по Victoria Metrics на 18 слайде.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий