Комментарии 10
Какая лютая солянка. Вы бы хоть как то структурировали статью, ну не знаю, например инструменты для наблюдаемости в отдельный блок, инструменты управления инцидентами в другой и тд.
Сам выбор инструментов тоже весьма спорный, описаны плюсы и не описано минусов вообще.
ELK - в более менее серьезном окружении требует весьма больших затрат на инфраструктуру. Официально не доступна в России. Лицензия стоит как крыло от самолета, за Platinum лицензию просят в районе $7 000 за ноду, если же хотим Enterprise то там раньше считалось по ERU, 1 ERU равен общему адресованному кол-ву памяти поделенному на 64Gb и стоило это в районе $12 000 - $13 000 за 1 ERU. Конечно есть бесплатная лицензия, но в таком случае вы можете забыть про алерты, так как в бесплатной редакции алерты умеют только в индексах создавать события, в старых версия умели еще на почту слать но и это убрали.
Splunk Cloud - недоступны из России
ServiceNow - В России вроде купить нельзя. Лицензии стоят весьма ощутимых денег. ITSM 100$ user/month , ITOM 150$ user/month, BPA 75$ user/month
Prometheus + Grafana - а точно ли идеальная?
В общем ощущение что это пост ради поста, без какой либо цели, без какого либо смысла.
В общем ощущение что это пост ради поста, без какой либо цели, без какого либо смысла.
Цель: быть в топе блогов. А содержание - не важно. Что там ИИ нагенерировал, то и опубликовали.
Что кроме ELK есть? Нужно собирать логи с контейнеров кубера с нескольких окружений и анализировать их в одном месте. Раньше неплохо работали с логами в google cloud, но по некоторым соображениям клиенту пришлось отказаться от gke. Сейчас используем бесплатный elk, но нет ощущения целостности системы.
Grafana для отображения логов, метрик, трейсов, алертов и тд.
Логи: сбор с помощью Promtail (правда он deprecated в пользу Grafana Alloy) / Grafana Alloy / Vector / Fluentbit. Агрегация логов Loki или VictoriaLogs
Метрики: сбор метрик vmagent / Prometheus node exporter / Grafana Alloy. Агрегация метрик: Prometheus, Mimir, Victoriametrics
Трейсы: Клиенты OpenTelemetry для сбора и OpenTelemetry Collector для предварительной, обработки и последующей отправки в Tempo
Алерты: Grafana, Alertmanager, Victoriametrics
Мы у себя используем полностью Grafana стек (Loki, Mimir, Tempo + Grafana Aloy), выбирали с прицелом на то, что будет все работать в связке из коробки, но увы, все не так радужно, требуются местами танцы с бубном что бы заставить работать все вместе как ты ожидаешь. А ну еще меня лично подкупило умение Loki работать с S3 из коробки.
Что то конкретное посоветовать сложно, так как это вопрос ваших навыков, личных предпочтений и времени которое вы готовы затратить на чтение документации.
А VictoriaLogs у вас есть в проде? У них в беседе просто постоянно по ней вопросы и не тестил, а было бы круто весь стек сразу.
Очередной рекламный высер компании, которая попросила сгенерировать текст ИИ, для хабра
А почему не victoriametrics для метрик и grafana oncall для оповещения и эскалаций?
Ansible: автоматизация без агентов и с минимумом хлопот
ну да ну да
8 инструментов боли чтобы избавиться от боли.
DevOps без боли: 8 инструментов для мониторинга, автоматизации и стабильной работы команд