eapotapov Mar 1 2018 at 14:58

Организация системы мониторинга

6 min

39K

ITSumma corporate blogSystem administration*System Analysis and Design*Server Administration*DevOps*

+24

Comments 25

UFO just landed and posted this here

site6893 Mar 1 2018 at 16:07

бомба!

-7

Francyz Mar 1 2018 at 16:18

Что-то я думал, что это презентация своей системы. Когда начал читать минусы других систем, подумал ну теперь точно будут пиарить свою систему, а тут бац и заключение: «Хотите что-то нормальное — пишите свое.».

AntoniusFirst Mar 1 2018 at 16:43

Это вы так аккуратно подводите к идее зонтичной системы мониторинга?

kricha Mar 1 2018 at 17:02

Мне из систем мониторинга очень нравится DataDog. Из минусов — сложно настраивать кастомные метрики. Из плюсов — красивые графика, множество интеграций и агентов, частично бесплатный (для ограниченного кол-ва хостов).

-1

banzayats Mar 1 2018 at 23:06

Основной минус DataDog — цена. 23$/хост/месяц — дороговато. Понятно, что своя инфраструктура мониторинга тоже стоит денег, но все же на порядок дешевле. Особенно если надо наблюдать за состоянием сотен хостов. Тот же Zabbix + Grafana прекрасно справляются с 1000 хостами\100 000 метриками.
Ну а настраивать всё надо — нет волшебной системы которая сама определит проблему...

-1

PMVyatkin Mar 1 2018 at 17:49

У нас ранее был на поддержке проект, с круглосуточной поддержкой и критичными для заказчика сервисами. Никакого особенного RocketScience там не было — виндовые службы (и их резервные копии на соседнем сервере), БД Оракл и ее резервная копия, переключалка БД, + не забился ли жесткий диск (логирование же), нет ли проблем с тэйблспейсами — всего 20-25 компонентов на 1 заказчика, заказчиков около 20. Мониторили работоспособность каждого компонента (делали софт сами).
И честно говоря — без нормального описания процессов все это слабо работало. Дело в том, что тот кто следит за мониторингом — либо получает разумное количество сообщений в единицу времени и обрабатывает их, либо получает больше необходимого и на часть забивает. К тому же, у него есть еще и функциональные задачи + какую то часть времени он за мониторингом не следит (например поехал в отпуск или командировку) и мониторинг бесхозный и бесполезный, начинает присылать тонны сообщений.
В итоге, так это и похоронили — слишком сложно для понимания, мало полезно.
Идеальна система мониторинга, которая:
а) не пишет ненужного, а пишет только по делу;
б) суперлегко настраивается (типа развернул сервис, ввел параметры, подцепил процессы и забыл, а не обновлял БД и настраивал таблицы руками);
в) легок в освоении для саппорта (сотрудник отвалился — новый сел, получил письмо и понял что там написано).
Так же клево, когда менеджмент продумал и внедрил систему реагирования на события. Например в отделе работают Вася и Петя. Вася отвечает за мониторинг все будние дни. Петя отвечает за мониторинг все выходные дни, и дни когда Вася в командировке. Если мониторинг присылает письмо с проблемой, ответственный пишет в ответ «Принято в работу, номер тикета в саппорте 31337» и это рассылается на группу. Далее он работает по тикету в рамках текущего процесса поддержки, а когда инцидент решен — пишет в группу — «Инцидент решен — дело было в засорившемся логами диске С; по результатам создана проблема тикет 31338 — анализ использования места на ЖД для сервера N».
Конечно, можно дофига к мониторингу прикрутить — нагрузку ЦП в пике, IO на ЖД, загрузку памяти и т.д. и т.п. — но нужна ли вам реально эта информация — на мой взгляд она отладочная, должна либо в лог писаться, либо это должно быть обнаружено на тестировании.
Мониторить это у заказчика — не знаю, не знаю…
Но статью плюсану, интересно, спасибо.

SirEdvin Mar 1 2018 at 19:18

На самом деле, еще помимо prometheus есть go-graphite.

blexeyaykov Mar 1 2018 at 19:58

Тема мониторинга в современной ИТ среде не освещена, увы…
И не надо «изобретать велосипед». Есть BMC TrueSight Operations Management, в котором и Infrastructure & Cloud Monitoring, и APM, и End-User Experience Monitoring (Active & Passive), и Artificial Intelligence для анализа данных из разнородных источников и т.д.

polarnik Mar 1 2018 at 21:20

Спасибо за статью. Поддерживаю комментарий выше про graphite. Мой опыт с мониторингом такой. Сначала InfluxData: telegraf, influxdb. И плюсом Grafana для alert-ов и графиков с таблицами. Telegraf потому, что он умеет мониторить всё, плагинов у него куда больше, чем у Prometeus. А InfluxDB развертывается в один клик на любой платформе. Когда производительности InfluxDB перестаёт хватать, а купить коммерческую версию не получается, тогда уже есть Graphite. В Graphite уже есть масштабирование. Или есть Prometeus, который гордится своим партицированием. Неизменными остаются telegraf, который умеет писать данные в Graphite и Prometeus. И Grafana, которая умеет их читать.

Чтобы иметь теоретическую возможность переехать, не надо в Grafana писать слишком сложные запросы к Influx (я уже успел написать). Чтобы потом не так долго их переписывать под другой синтаксис. А вообще надо бы сравнить скорость работы движков. Не сравнивал ещё. Но проседания скорости работы Influx ощущаю, на стандартных настройках. Её тоже надо уметь тюнить, и запросы в Grafana к Influx надо тоже писать оптимально.

Про информацию о New Relic тоже спасибо. Сейчас доволен работой JavaMelody — APM под Java, свою работу делает, open source. New Relic выглядит интересно — APM под все языки и технологии сразу. Его можно поставить внутри закрытого контура? Или он только как внешний сервис работает?

openbsod Mar 2 2018 at 01:16

Спасибо за статью. Интересным и удобным показался PromHouse . С немаловажным нюансом — на настоящий момент он не рекомендуется к серьëзному проду. Но сколько возможностей к аналитике — и есть возможность дописать что-то своë специфичное под профиль подлежащих мониторингу процессов.

upd: парсер съел ссылку github.com/Percona-Lab/PromHouse

equand Mar 2 2018 at 11:05

netdata?

UFO just landed and posted this here

Spooner Mar 2 2018 at 12:17

Очень поверхностная статья, почему то ни слова о том, что в prometheus есть alert manager, который умеет сильно больше, чем встроенный алертинг в prometheus.
Не говоря уже о том, что если у вас есть grafana с её алертами, у вас может быть любой сторадж под ней от graphite, до opentsdb — события по проблемам настраивать будет проще простого.

zekefast Mar 2 2018 at 12:17

Дока Prometheus очень годная с Alerting Manager-ом.
Тема освещена достаточно неплохо:
— shop.oreilly.com/product/0636920025986.do
— shop.oreilly.com/product/0636920050773.do
— Плюс несколько глав из этой книги: shop.oreilly.com/product/0636920041528.do

UFO just landed and posted this here

Ipeacocks Mar 2 2018 at 23:28

> Prometheus — отличное решение для сборки огромного количества метрик… И это все очень здорово, но очень неудобно смотреть, поэтому к нему добавляется Grafana.

Так потому страшно и неудобно смотреть, потому что Графану юзать нужно. Я думаю, что так разработчики и хотят.

voe Mar 3 2018 at 08:56

У elastic есть APM мониторинг с недавних пор, он ещё молод конечно но на него думаю имеет смысл поглядовать так как в отличие от того же newrelic он будет self hosted.

AntoniusFirst Mar 5 2018 at 12:24

Если нужно self-hosted, можно и в сторону Appdynamics посмотреть

voe Apr 11 2018 at 15:58

Appdynamics вроде как денег хочет. в случае с APM от elastic денег платить не нужно за сам APM (нужно за многое другое, но APM бесплатный).

AntoniusFirst Apr 12 2018 at 15:17

У Appdynamics есть кое-что бесплатное типа мониторинга 1 приложения. А Elastic да, крутое решение особенно в свете развития всяких там *beat расширений

Zerthimon Mar 3 2018 at 21:03

Причём здесь значок комедианта?

symbix Mar 4 2018 at 04:02

"Who watches the watchmen?"

System12 Mar 3 2018 at 21:18

К сожалению не приведено определение мониторинга. К сожалению многие понимают его по разному.

polarnik Mar 6 2018 at 01:57

В плане описания подхода к мониторингу понравилась книга:

Practical monitoring

Прочёл свободно доступную первую главу «Анти-паттерны»: conferences.oreilly.com/velocity/vl-ca/public/content/practical-monitoring, этого мне хватило. Содержимое перекликается с комментариями и дополняет тему статьи.