Комментарии 30
Мне напомнило вот эту штуку, по ней статья на хабре года 2-3 назад была:
https://github.com/sqshq/sampler
Всё rrd-based давно сгнило.
У нас есть комплект из плейбук, которые в любом проекте поднимают мониторинг на связке prom+grafana, и оно работает офигенно. На самом сервере в stand-alone режиме там несколько экспортёров (node, dmesg, аппаратные рейды), и из коробки оно покрывает 90% мониторинга любого проекта. Оставшиеся 10 допиливаются за весьма краткое время.
поднимают мониторинг на связке prom+grafana
Тоже использую. Это безумно мощная связка. Но все-таки несколько другого класса.
А вот, например, особо ничего не настраивая, например на неподконтрольной машине клиента, а просто попросив его установить и запустить netdata — очень сильно помогает понять какую-нибудь проблему.
Я обычно для этого atop использую. Там бонусом в архиве, ещё per pid информация, что иногда бесценно.
Ну да top, atop, htop и т.п. в зависимости от ситуации :)
Но netdata — это что-то среднее, м\у вышеназванными консольными интсрументами и Prometheus+Grafana.
Там по процессам и systemd сервисам тоже можно смотреть, правда из коробки PID не выводятся: https://github.com/netdata/netdata/issues/3088. Мол, после рестарта PIDы поменяются, а имена нет...
Хотел тоже про netdata написать.
Очень полезный инструмент. Пока лучшего для краткосрочного мониторинга/профилирования не встречал.
После установки можно и не настраивать.
Но можно довольно сильно углубиться в настройки, если надо.
Ещё netdata знает о ZFS из коробки, если для кого-то это актуально...
Почему только краткосрочного? Можно и долгосрочного, dbengine позволяет, да и экспорт куда-то ещё никто не запрещает — а вот сбор данных у него самый шустрый, нагрузки на систему почти нет.
Monitorix - за минуту развёртываем мониторинг Linux сервера