Как стать автором
Обновить

Как мы строили систему мониторинга. Тернистый путь к стабильной работе сложных IT-систем

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.4K
Всего голосов 5: ↑3 и ↓2+2
Комментарии7

Комментарии 7

Grafana вообще молодцы! Они и логи и метрики и трейсы закрывают своими open source решениями. Еще бы логи можно было бы у них долго хранить, хотя-бы несколько месяцев ...

Ещё не так давно выкатили Grafana Oncall, позволяющее выстроить различные сценарии эскалации проблем до сотрудников. Сам тестил поверхностно, но коллеги позитивно отзывались о нем :)

Взамен Prometheus лучше сразу использовать vmagent для сбора и VM для хранения, получите запас на рост количества метрик в разы на тех же ресурсах.

Мы написали свой сборщик логов, отправляющий их в MongoDB, откуда они транслируются клиентам.

У MongoDB такая же лицензия как у Elasticsearch, которая вроде как раз запрещает её использование в облаке для продажи услуг.

Sentry - инструмент не совсем для алертинга и оперативного реагирования, кстати. Скорее для долгосрочного отслеживания ошибок, их дедупликации и мапинга на задачи и релизы. Правильное использование, нужно что бы в ивенте в sentry не было уникальных идентитификаторов, тогда алерты будут только по уникальным ошибкам.

Мы MongoDB и т.д. используем у себя внутри, а не "перепродаем", поэтому тут нет проблемы с лицензией. Для внутренних целей использовать можно)

Zabbix больше для физических серверов и виртуалок. У нас это решено тем, что часть низкоуровневой инфраструктуры мы используем от крупного провайдера, который за этим следит. Но согласен - Zabbix нужное решение во многих случаях.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий