Поиск и устранение проблем в Zabbix, или как перестать «слепо» мониторить / Хабр

Система Zabbix является универсальной системой мониторинга с открытым исходным кодом, предназначенной для наблюдения за состоянием IT‑инфраструктуры: серверов, сетевых устройств, приложений, баз данных, систем виртуализации и облаков в режиме реального времени.

Цель — обеспечить углублённый мониторинг различных компонентов ИТ‑инфраструктуры, гарантируя бесперебойную работу и быстрое выявление проблем.

По сути, Zabbix стал стандартом де факто при решении задач мониторинга инфраструктуры. Но очень часто можно столкнуться с ситуациями, когда Zabbix установлен и успешно работает, дашборды пестрят красивыми графиками, но в 3 часа ночи вас будит ложное срабатывание по загрузке процессора, которое само проходит через 5 минут. При этом реальный инцидент — падение критического API — вы замечаете только спустя полчаса по звонку от бизнеса.

Это пример классического синдрома «слепого мониторинга». Мы настроили сбор метрик, но не настроили контроль, то есть система присутствует, но доверия к ней нет. В этой статье мы разберем системный подход к диагностике самого Zabbix и его правил, чтобы ваш мониторинг начал приносить пользу, а не создавать шум.

Почему Zabbix перестает видеть реальные проблемы?

Итак, у нас есть проблема доверия к уже работающей системе. Но прежде, чем лечить симптомы, нужно понять природу «слепоты» мониторинга. Здесь может быть несколько причин такого поведения Zabbix. Прежде всего это отсутствие контекста. То есть мы осуществляем мониторинг «железа» (CPU, RAM), но при этом не ведем мониторинг бизнес‑логики (скорость обработки заказов, количество ошибок 500 в Nginx логах). В результате мы получаем половинчатую картину.

Еще одна возможная причина — это деградация данных. Метрики теряются по пути к Zabbix так как очереди переполнены, или же Zabbix просто не успевает их обработать.

И еще одна, довольно распространенная причина — это просто большое количество алертов. Их так много, что мозг перестает на них реагировать (эффект сирены в Нью‑Йорке).

Итак, мы определились с основными причинами некорректной работы и теперь давайте пройдемся по ключевым узлам системы и научимся находить эти проблемы.

Очереди и производительность

Очень часто причиной торможения и потери данных являются не серверы в «красной зоне», а сам Zabbix. Он просто захлебывается в том потоке данных, который к нему приходит.

Так типичной является проблема, когда метрики опаздывают или появляются с пробелами. Здесь причина такого поведения как правило кроется в разрастающейся очереди.

Для проверки перейдите в раздел Администрирование и далее Очередь и посмотрите состояние очереди.

Если вы видите элементы данных в очереди более часа — это однозначно красный флаг. Необходимо разбираться с настройками параметров и конфигурации Zabbix, для того, чтобы сократить размер очереди до приемлемых размеров.

Одной из возможных причин большой очереди является медленная работа базы данных или нехватка процессов‑обработчиков. Для ее устранения прежде всего проверьте статистику БД (особенно если используете MySQL без оптимизации или на HDD).

Также можно увеличить количество процессов StartPollers, StartTrappers, StartPingers в конфигурационном файле Zabbix Server. Они работают параллельно и если у вас 10 тысяч устройств и 2 Poller'а — очередь будет всегда.

Еще одна, знакомая многим проблема это, ситуация, когда Zabbix Server умирает при высокой нагрузке. Здесь нам необходимо следить за самим Zabbix с помощью шаблона Zabbix Server Health). Для нас критичны следующие метрики:

Zabbix queue over 10 min (Завал в очереди)

Value cache,% (Кеш значений должен быть > 90% попаданий, иначе БД не справляется).

Для устранения этой проблемы выполните тюнинг кешей (CacheSize, HistoryCacheSize) в файле zabbix_server.conf. Это оперативная память, не жалейте её для Zabbix.

Охота на «шумные» триггеры

Самая частая причина недоверия к Zabbix — это неправильно настроенные обнаружения (LLD) и триггеры, которые срабатывают на секундные скачки. Например, мы можем столкнуться с проблемой: Алерт «High CPU load» срабатывает каждые 5 минут, но никто ничего не делает, потому что реальную просадку производительности на нем уже не отследить.

Лучшим решением здесь будет аудит настроенных в Zabbix триггеров. Для этого зайдите в раздел Настройка → Действия → События и посмотрите, какие хосты генерируют больше всего событий.

Проанализируйте топ-5 наиболее активных триггеров. Действительно ли они информативны или эти триггеры просто создают цифровой шум.

Итак, вы нашли проблемные триггеры. Теперь давайте посмотрим лучше всего сделать. Конечно, проще всего тупо увеличить порог на некоторое значение, допустим с 5 до 10.

{Template OS Linux:system.cpu.load.avg(5m)}>10

Но такой подход скорее всего только ухудшит контроль. Лучше используйте триггер на основе прогноза или аномалии. Или хотя бы условие, что нагрузка держится выше порога более 10 минут:

min(/host/system.cpu.load.avg(5m),10m)>5

Еще одна распространенная проблема: автоматически созданные диски/интерфейсы могут существенно засорять мониторинг. LLD — мощная штука, но он создает элементы данных для всего подряд. Ответьте на вопрос, вам действительно нужен триггер на занятость /dev/loop0 (снап‑пакеты в Ubuntu)? Скорее всего нет, но он у вас есть.

Здесь вам на помощь придут регулярные выражения, с помощью которых мы сможем отфильтровывать виртуальные диски, интерфейсы loopback и Docker‑диски из мониторинга на этапе обнаружения.

Потеря данных или меток времени приводит к тому, что мы рискуем получить рваную картину мониторинга. В случае, если у вас распределенная инфраструктура, источник проблемы часто скрываться в Proxy. Например, рассинхронизация времени на агенте, прокси и сервере (а мы точно используем NTP?) или переполнение буфера прокси.

Для устранения этой проблемы прежде всего проверьте zabbix_proxy.log на ошибки failed to send data to server.

Убедитесь, что на прокси достаточно места на диске для хранения истории, если связь с центральным сервером прерывается. Настройте ProxyLocalBuffer и ProxyOfflineBuffer.

Ну и проверьте наконец синхронизацию с сервером NTP.

От мониторинга железа к контролю бизнеса

Техническая часть настроена, очередей нет, шум подавлен. Самое время ответить на вопрос: Почему мы до сих пор не узнаем о проблемах первыми? Теперь вам необходимо перестать следить за ICMP ping до сервера банковского шлюза, а вместо этого начать контролировать то, за что платит бизнес.

Здесь нам на помощь приходят веб‑сценарии. Вот простой набор основных шагов, которые можно выполнить для эффективного мониторинга:

Шаг 1: Выполняем GET на страницу авторизации (проверка, что nginx отвечает 200).
Шаг 2: Передаем с помощью POST с логином/паролем (имитация действия пользователя).
Шаг 3: Проверяем, что в ответе вернулась строка «Добро пожаловать, Иван» (контроль логики приложения).

В настройках триггера мы должны не просто реагировать на код ответа, но и проверять время загрузки страницы. Если страница грузится 10 секунд вместо 1 секунды — это уже проблема.

Самонастраивающийся Zabbix

Важно понимать, что настоящий контроль — это не только поиск проблем, но и их автоматическое устранение или расшифровка. Например, администратор тратит 10 минут на логин по SSH, чтобы перезапустить упавший сервис. Можно использовать скрипты удаленных команд и оповещения с контекстом. Так, вы можете создать действие (Action), которое при срабатывании триггера Service Is Down выполняет команду sudo systemctl restart httpd на хосте через Zabbix Agent.

Да, здесь есть определенные риски, так что делайте это только для сервисов, которые гарантированно можно перезапускать без последствий (или используйте флаг Maintenace).

В тексте письма или сообщения в Telegram отправляйте не просто «{HOST.NAME} is down». Отправляйте результат выполнения команды, полученный через Item‑запрос прямо в шаблоне сообщения.

Пример: «На сервере {HOST.NAME} отказал Nginx. Последние 10 строк лога: {{HOST.NAME}:system.run[tail ‑n 10 /var/log/nginx/error.log].last(0)}»

Это позволяет инженеру понять критичность проблемы, еще не открывая консоль.

Заключение

Чтобы перестать «слепо» мониторить и начать реально контролировать, выполните инвентаризацию своих триггеров. Удалите все старые триггеры, на которые никто не обращает внимания, а используемые настройте так, чтобы они меньше шумели без толка. Внедрите мониторинг самого Zabbix, а также перепишите критичные триггеры на бизнес‑метрики (HTTP‑сценарии, логи ошибок приложений). Не лишним будет обогатить алерты диагностической информацию из логов и статусов сервисов. Наконец настройте самовосстановление для типовых, безопасных ситуаций.

И помните простую формулу: идеальный мониторинг — тот, который молчит, когда всё хорошо, и дает исчерпывающий ответ, когда всё плохо.

Если хотите пойти дальше и научиться не просто смотреть на метрики, а действительно видеть систему целиком, обратите внимание на курс «Observability: мониторинг, логирование, трассировка». ➦ [Посмотреть курс]

Начать можно с бесплатного тестирования — оно поможет понять, где у вас уже есть база, а где знания пока фрагментарны. ➦ [Проверить свой уровень]

А для быстрого погружения подойдут открытые уроки :

31 марта в 20:00 про поиск и устранение проблем в системе мониторинга Zabbix;
☛ [На урок по Zabbix]
14 апреля в 20:00 про Grafana Stack как основу современной Observability-практики.
☛ [На урок по Grafana Stack]

^{Открытые уроки помогают снизить риск выбора вслепую: можно посмотреть на формат, оценить уровень разбора темы и пообщаться с преподавателем до оплаты.}

Поиск и устранение проблем в Zabbix, или как перестать «слепо» мониторить