ru_vds Jul 5 2023 at 16:39

Мониторинг — это боль

Medium

13 min

14K

RUVDS.com corporate blogProgramming*Debugging*Data storage*

Opinion

Translation

+46

Comments 15

Nikon_NLG Jul 5 2023 at 19:08

У Brian Brazil был хороший блог по поводу мониторинга (с уклоном на Prometheus конечно).

И в книге он неоднократно упоминал что собрать миллионы метрик - много ума не надо, а вот как с этим работать - отдельная головная боль, и просто "давайте на всё настроим alert" - плохая идея.

Да и сама по себе книга "Prometheus Up & Running" содержит немало идей для раздумья

cy-ernado Jul 5 2023 at 21:40

Можно еще посмотреть в сторону https://opentelemetry.io как попытку это все стандартизировать.

AnyKey80lvl Jul 6 2023 at 18:33

OpenTelemetry и т.п. закрывают малую часть задач мониторинга, в основном это всё крутится вокруг inject'а либ в приложение и сбора данных (транзакции, логи, метрики).
Но сбор/обработка трапов от сетевого оборудования или парсинг произвольных файлов для получения данных мониторинга никуда не денутся...

smarthomeblog Jul 5 2023 at 23:04

Попадалась статья про VictoriaMetrics. Как она в лучшую сторону отличается от того же Prometheus. Вот думаю попробовать хотя бы в качестве концепта.

citius Jul 6 2023 at 00:05

Виктория прекрасно и стабильно работает, при этом сильно экономит место засчет сжатия и дедупликации и умеет в отказоустойчивость, чего чистый Прометей не умеет.

Я прям удивился почему Cortex и Thanos в статье есть, а Виктории нет.

AnyKey80lvl Jul 6 2023 at 00:15

В статье много чего нет, например, Elastic Common Schema или Loki.

Victoria вообще в продакшне у многих уже давно.

Но в целом основные проблемы мониторинга подсвечены - сложно, нужно все продумывать. От себя добавлю, что между опенсорс тулами и платным софтом - пропасть. Нет опенсорс CMDB, нет коррелятора событий нормального, да даже простого поиска аномалий нет (opensearch не в счёт).

onyxmaster Jul 6 2023 at 08:55

никогда не приносит компании денег

Зато его отсутствие часто помогает деньги потерять :)

Ivan22 Jul 6 2023 at 12:15

ну, это все равно что сказать что тесты не приносят денег

skyblade Jul 6 2023 at 17:30

А такие решения как zabbix, nagios, icinga уже совсем не модные что ли?
Как-то вообще не подсвечено, где им место в этих схемах.
А я сталкиваюсь с такими системами постоянно. Prometheus - это же больше для контейнеров всяких, но не всё же строится на них.

AnyKey80lvl Jul 6 2023 at 18:25

Nagios и Icinga помирают медленно, но верно. В Европе распространён, правда, check_mk, который продолжает nagios-традиции.

А Zabbix - агентский/безагентский мониторинг, развивается и довольно широко применяется (хотя за пределами восточной европы не особо популярен кмк).
Не все задачи удобно/возможно закрыть Prometheu's ом.

kekoz Jul 8 2023 at 16:08

Логи дают понять, что в точности происходит

По-моему, это фундаментальное заблуждение, которое и привело нас к тем системам мониторинга, которые мы имеем. Логи очень редко (почти никогда) дают понять, что “в точности происходит”. Даже сама суть слова “лог” прямо говорит — это исторические факты, а не песня акына об окружающей действительности. То есть, логи дают понять, что когда-то произошло, а не происходит здесь и сейчас. Они — форенсик-инструмент в руках расследователя (в действующей системе), или отладочный инструмент в руках разработчика (в создаваемой/развивающейся системе).

SIEM-системы не должны использоваться для мониторинга.
А мониторинговые системы должны опираться на такие средства, как, например, SNMP в сетях. Только вот единого набора OID, MIB и метрик для приложений до сих пор никто не придумал.

uburro Jul 11 2023 at 19:50

Так и метрики по snmp - это тоже о том, что происходило n времени назад. Выже не собираете снмп в реальном времени? А скорее циклом за н времени, с подсчетом того, что происходило между этими циклами. В логи в этом плане более стихийны и моментальны, и могут показать что происходит быстрее, при условии, что данные визуализирубися/подсчитываются достаточно "быстро"

JuriM Jul 11 2023 at 23:25

а разве логи в реальном времени мониторятся?

uburro Jul 11 2023 at 23:33

Ну разве что в kubectl logs podName -f иль тип того, я хз ))

Andruh Jul 12 2023 at 16:14

Мониторинг через парсинг логов - это прямо типовой антипаттерн какой-то. Логи придуманы для отладки программистами. Для мониторинга - счётчики и системы трассировки. В последние можно, в том числе, и строки пихать, но обычно это не нужно, ещё в компонентах всё можно выразить через счётчики и не гонять через текст.