kirillkosolapov 11 июн 2023 в 13:50

Как мы строили систему мониторинга. Тернистый путь к стабильной работе сложных IT-систем

Простой

4 мин

5.5K

Блог компании AmveraIT-инфраструктура*DevOps*

Кейс

Комментарии 7

Data4 11 июн 2023 в 13:59

Grafana вообще молодцы! Они и логи и метрики и трейсы закрывают своими open source решениями. Еще бы логи можно было бы у них долго хранить, хотя-бы несколько месяцев ...

Tessai 12 июн 2023 в 08:09

Ещё не так давно выкатили Grafana Oncall, позволяющее выстроить различные сценарии эскалации проблем до сотрудников. Сам тестил поверхностно, но коллеги позитивно отзывались о нем :)

mirwide 11 июн 2023 в 17:20

Взамен Prometheus лучше сразу использовать vmagent для сбора и VM для хранения, получите запас на рост количества метрик в разы на тех же ресурсах.

Мы написали свой сборщик логов, отправляющий их в MongoDB, откуда они транслируются клиентам.

У MongoDB такая же лицензия как у Elasticsearch, которая вроде как раз запрещает её использование в облаке для продажи услуг.

mirwide 11 июн 2023 в 17:37

Sentry - инструмент не совсем для алертинга и оперативного реагирования, кстати. Скорее для долгосрочного отслеживания ошибок, их дедупликации и мапинга на задачи и релизы. Правильное использование, нужно что бы в ивенте в sentry не было уникальных идентитификаторов, тогда алерты будут только по уникальным ошибкам.

kirillkosolapov 11 июн 2023 в 18:15

Мы MongoDB и т.д. используем у себя внутри, а не "перепродаем", поэтому тут нет проблемы с лицензией. Для внутренних целей использовать можно)

Tzimie 11 июн 2023 в 19:02

А Zabbix?

Не скажу что он мне очень нравится, но используется часто

kirillkosolapov 12 июн 2023 в 12:41

Zabbix больше для физических серверов и виртуалок. У нас это решено тем, что часть низкоуровневой инфраструктуры мы используем от крупного провайдера, который за этим следит. Но согласен - Zabbix нужное решение во многих случаях.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий