olegbunin Jan 28 2017 at 11:11

Правильное обнаружение проблем с помощью Zabbix

14 min

73K

Конференции Олега Бунина (Онтико) corporate blogSystem administration*IT Infrastructure*Server optimization*Server Administration*

Tutorial

+23

Comments 43

UFO just landed and posted this here

k3NGuru Jan 28 2017 at 17:07

Достаточно установить Hyper-V роль на одном из серверов, скачать Hyper-V appliance http://www.zabbix.com/download, установить по инструкции и пользоваться.
Особых проблем с установкой не должно возникнуть

varvsn Jan 29 2017 at 05:09

Из личного опыта — Zabbix Server на виртуалке это не очень хорошее решение. На 150+ айтемов в секунду дисковая подсистема умирала (гипервизором служил Xen). После переезда на выделенное железо с теми же ТТХ сейчас обрабатывается в разы больше.

k3NGuru Jan 29 2017 at 07:09

Это уже другой вопрос :) Спросили как поднять Zabbix Server на Windows

UFO just landed and posted this here

foxmuldercp Jan 29 2017 at 20:52

Я, к сожалению сталкивался не один раз, когда на одном и том же железе Xen работал медленнее Linux + kvm, VMware или Hyper-V, драйвера и поддержка виртуализации гостем и хостом гостевой ОС всё таки сильно влияют.

F1RST Jan 30 2017 at 05:56

Тут скорее вопрос, что используется в качестве дисковой системы. Мониторим сегмент ЦОД, 25 хостов, около 90 виртуалок. Все работает без нареканий, но тут оговорюсь, в качестве дисковой системы используются полноценные СХД.

althizzie Jan 28 2017 at 18:08

Есть агенты под Win, так что проблемы быть не должно. К тому же есть специальные механизмы для сбора данных из EventLog'ов Windows, например.

UFO just landed and posted this here

brick_btv Jan 29 2017 at 05:09

Дефолтный windows-агент имеет досточно малый функционал: https://www.zabbix.com/documentation/3.4/manual/appendix/items/supported_by_platform

althizzie Jan 29 2017 at 11:01

Но ведь никто не мешает обвешаться powershell'ом и написать свои проверки.

Estagus Jan 28 2017 at 16:30

Простите за глупый вопрос.
Вот в примерах (допустим в «система перегружена») есть 2 условия: на вход (где TRIGGER.VALUE = 0) и на выход (где TRIGGER.VALUE = 1)… Там со знаками больше/меньше все правильно?

althizzie Jan 29 2017 at 11:01

Всё правильно. При отсутствии проблемы, если минимальный LA за 5 минут больше 3, то триггер срабатывает.
При сработавшем триггере, он остаётся активным, если максимальный LA за последние 2 минуты больше 1.

alexvl Jan 31 2017 at 11:21

Начиная с версии 3.2 есть разделение на условие проблемы и условие восстановления (выхода из проблемы). Макросы {TRIGGER.VALUE} больше не нужны. Несколько примеров: https://www.zabbix.com/documentation/3.2/manual/config/triggers/expression#hysteresis

divanikus Jan 28 2017 at 16:54

Мне вот интересно другое. То что для алертов и прочего Zabbix отлично подходит это понятно. Но вот что делать с метриками приложений? Допустим приложение пишет сотни метрик с хоста. По ним нет алерта, но они нужны например аналитику компании. У Zabbix ядро работает с mysql, который я что-то сомневаюсь что выдержит такие нагрузки, особенно когда таких приложений десятки. Я так понимаю что выгоднее в этом случае использовать что-то более предназначенное для таких сценариев, вроде Prometheus или InfluxDB.
Может есть уже готовые подобные связки или плагины для Zabbix?

robert_ayrapetyan Jan 28 2017 at 19:32

Zabbix умеет выгребать практически любые данные с хоста. И работать с Postgres. Думаю у вас задача стоит не как выгрести миллионы событий в секунду, а как их правильно сгруппировать на клиенте и вытягивать разумное число раз.

divanikus Jan 28 2017 at 20:09

Ну, грубо говоря, приложение генерит кучу разных бизнес-метрик, их реально может быть много. То что их требуется прям каждую секунду смотреть я конечно не скажу. Но их желательно все сохранять и потом анализировать.

robert_ayrapetyan Jan 28 2017 at 20:30

Собирайте среднее\макс\мин на клиенте (просто не в курсе что именно вам важно) и вытягивайте раз в 10 секунд, например, в заббикс сервер, зачем вам для этого высокопроизводительная БД?

divanikus Jan 28 2017 at 21:14

Я просто нагрузку прикидываю. У меня сейчас графит жарит в RAM диск порядка 350 тысяч метрик, не знаю уж, в минуту или в секунду (вряд ли). Я боюсь mysql тупо загнется с такой нагрузкой. Конечно у меня метрики шлются каждые 10 секунд и весьма вероятно их так часто слать не надо. Я пытаюсь понять в какую сторону двигаться.

robert_ayrapetyan Jan 28 2017 at 21:26

350 тыс метрик или тысячи значений для нескольких метрик? С трудом себе представляю 350 тыс разных метрик…

alexk24 Jan 28 2017 at 21:54

Ну это не так уж сложно, вопрос в размере инфраструктуры и детализации. С одного среднего коммутатора вполне можно брать 1-2 тысячи метрик не особо увлекаясь. А идеология того же графита говорит о том что собирать нужно максимум возможного чтобы когда эта информация потребуется она уже была.

divanikus Jan 28 2017 at 22:19

Ну вот пример, бизнес-задача выполняется пакетными заданиями. Каждое задание генерит какой-то набор метрик — выполнено/запланировано, получено/отправлено и т.п. ну допустим где-нибудь десяток-другой метрик. Но самих заданий выполняется за час тысячу. Конечно у заданий есть свои классы. Вот хотя бы по классу заданий неплохо бы видеть картину происходящего, чтобы аналитик мог их корректировать и т.д. А еще это все надо уметь агрегировать, графики строить и т.п.

alexk24 Jan 28 2017 at 21:30

Zabbix не замена графиту. На среднем сервере 1000 значений в секунду для заббикса уже много. Основное отличие и плюс графита — RRD базы в разы лучше работающие со сбором подобного рода информации.
При большом объеме загружаемой в Zabbix информации как минимум нужно использовать партиционинг чтобы избежать лишней нагрузки от хаускипера (удаление старых данных). И все равно такие объемы метрик как в графите будут нереальны.
По моему опыту в заббикс имеет смысл лить то на чем построены тригеры + немного «справочной» информации (не перебарщивая), а разного рода метрики действительно удобнее иметь в графите или чем-то подобном с RRD базами.

divanikus Jan 28 2017 at 22:16

Ну вот у меня про это изначальный вопрос и был, может плагины есть для заббикса или еще что? Графит сам по себе жутко не нравится и я хочу от него отказаться в пользу чего-то менее ресурсоемкого.

foxmuldercp Jan 29 2017 at 20:54

Метрики неплохо собираются набором ELK, например.
Или просто тем же Carbon + Graphite, как, допустим, у меня сейчас на тестовом кластере.
Некоторые современные пакеты п/о сами изнаачально умеют слать метрики в Carbon, например PowerDNS

click0 Jan 28 2017 at 19:03

Очень сложная в настройке системе и очень прожорливая в ресурсах.
Мелкие ISP выбирают системе попроще, типа cacti и/или nagios.

divanikus Jan 28 2017 at 19:07

Cacti не умеет в алерты, только картиночки смотреть. Не SNMP там боль. Уж лучше Ganglia тогда.

click0 Jan 28 2017 at 19:24

Cacti не умеет в алерты

Умеет, есть плагины.

Не SNMP там боль.

Через Net-snmpd можно передавать результат выполнения скриптов.
Да и напрямую, можно собирать результаты скриптов, только темплайты надо создавать.

svat Jan 29 2017 at 05:09

Смотря с чем сравнивать.
Если сравнивать с продуктами линейки TrueSight, от той же BMC — то Zabbix выглядит как простая легковесная (как в настройке так и в эксплуатации) система.
И в то же время по функционалу (реальному, который несет бизнесу некоторый value) уступает совсем немного.

Для мелких компаний, с десятком серверов Zabbix (как и BMC) может быть действительно не актуален. Там и что-то типа Monit справится и даст тот же результат, что и Zabbix.

Но когда серверов тысячи или десятки тысяч или сотни тысяч — то Zabbix начинает выигрывать как минимум по стоимости лицензий: общая стоимость владения выходит на порядок (или даже более) дешевле, чем у «тяжелых» систем, при том, что ключевые проблемы им решаются.

click0 Jan 29 2017 at 06:26

Но когда серверов тысячи или десятки тысяч или сотни тысяч

Стоп, это уже редкость.

svat Jan 29 2017 at 19:30

Да почему же редкость!

Даже сотня другая третья серверов, виртуалок, приложений, микросервисов, сетевых устройств, датчиков с snmp-интерфейсами или любых других объектов в инфраструктуре (заббиксу все равно что именно мониторить) — это далеко не редкость! Это по сути масштаб средненького ИТ-проекта.

И уже на таком масштабе Zabbix становится оправданным. Не говоря о любой энтерпраз-инфраструктуре, где всего разного еще на порядок больше. Стоит только присмотреться.

click0 Jan 29 2017 at 19:35

У вас проблемы с оценкой количеств метрик.

Даже сотня другая третья серверов, виртуалок, приложений, микросервисов, сетевых устройств, датчиков с snmp-интерфейсами или любых других объектов в инфраструктуре

Для этого с головой хватит cacti.

заббиксу все равно что именно мониторить

Если IOPS и памяти хватит :)

divanikus Jan 29 2017 at 21:43

Попробуйте Ganglia. Как раз для сотен тысяч серверов.

click0 Jan 30 2017 at 08:19

Попробуйте Ganglia.

Последняя версия 3.7.1 (1 апреля 2015)

Кто поддерживать будет?

divanikus Jan 30 2017 at 12:39

Ganglia Web 3.7.2 released on June 14, 2016
Даже на сайт сходить не удосужились.

click0 Jan 30 2017 at 13:12

Я как раз посмотрел. Модуль Web != Core. Веб-надстройка как раз мало интересна.
Сравните объемы и скорости выходов новых версий cacti, nagios, zabbix или monit.

divanikus Feb 1 2017 at 02:48

У Ganglia вполне стабильное ядро. Сам использовал для мониторинга порядка тысячи хостов. Gmond в принципе все нужное умеет. Gmeta тоже. Так что развитие Web тут как раз и есть одна из основных фишек. Собственно как и у cacti.

kostya_g Jan 30 2017 at 07:40

Плюсану за сложную систему, особенно хардкорно триггеры создавать. :)

svat Jan 30 2017 at 10:00

Честно сказать не вижу конструктива в ваших комментариях, по этому становится не интересно вести диалог. И на большее, чем кратенько ответить на комментарий интереса уже нет.

У вас проблемы с оценкой количеств метрик.

нет у меня никаких проблем, у меня все отлично :)

Для этого с головой хватит cacti.

по каким критериям вы решили что "хватит"? ведь у разных людей могут быть разные требования к системе.

Если IOPS и памяти хватит :)

а разве Zabbix потребляет много ресурсов? а много это сколько?

keich Jan 30 2017 at 12:14

Очень интересная фишка Zabbix это тригеры по истории. Но это являеться и не достатком. Для тригеров по истории нужна история в DB Zabbix. Для тригеров важны актуальные данные. В сумме получается непрерывный поток горячих данных, которые сохраняются в DB Zabbix. Отсюда высокие требования к СХД. Желательно реализовать «партиционирование»(если не путаю термин). Это откровение бывает растраивает тех, кто пытаесь «бесплатно» внедрить мониторинг для относительно крупнных инсталяций и параноей мониторить все раз в секунду.
А если еще поднять вопрос отказоустойчивости. Какой допустимый минимальный простой системы мониторинга? Резервное копирование сервера и базы данных? А большая часть внедрения, это постановка на мониторинг ИТ-инфраструктуры как сервисов.
Для системы мониторинга тоже актуальны такие вещи как: Согласования, разработка, внедрение, документирование, поддержка, развитие. И допущенные технические просчеты на этапе внедрения будут увеличивать сложность обслуживания в продуктиве.

click0 Jan 30 2017 at 23:11

Вы пытаетесь жонглировать данными, но как только привели конкретные цифры, сразу сфейлились, что не в теме. Ни в телекоме, ни в DevOps.

click0 Jan 30 2017 at 23:16

Вот у меня есть объем и область метрик по каждому серверу, в зависимости от OS, по каждому порту коммутатора.
Объем мониторинга задает в ТЗ клиент.
Обычно, через каждые пару месяцев будет новая итерация.
Про анализ логов я уже молчу, почти никто из клиентов не желает анализировать логи.

YMax Mar 2 2017 at 13:11

Настройка Zabbix — очень увлекательное творческое занятие, причем толковой документации очень мало, скорее надо читать примеры внедрения и делать выводы в применении к своей ситуации.