Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.
Стартуем с базы: Configuration Management Database (CMDB) играет центральную роль в современных ИТ-системах, обеспечивая сбор, хранение и управление данными об инфраструктуре и ее элементах. В Monq реализована собственная CMDB, которая позволяет как управлять конфигурациями объектов, так и строить графовую модель для управления связями влияния одних объектов на другие.
CMDB, интегрированная в платформу Monq, обеспечивает оптимизацию мониторинга и управления инцидентами, делая ее ключевой частью эффективного ИТ-управления. Рассмотрим, как использование встроенной CMDB в Monq помогает не только управлять инцидентами, но и улучшать состояние всей инфраструктуры.
Наличие CMDB как конкурентное преимущество Monq
Основное отличие Monq от ряда других систем мониторинга на рынке заключается в глубокой интеграции CMDB с мониторингом и автоматизацией. Это создает целый набор не просто полезных, а действительно ключевых преимуществ:
Централизованная база данных, в которой собирается информация о конфигурационных единицах (КЕ), таких как серверы, приложения, виртуальные машины и сетевые устройства, — все это находится в одном месте, что упрощает управление. КЕ типизированы и для каждого типа свой атрибутивный состав, набор необходимых слотов мониторинга и своя модель уровня здоровья.
Ресурсно-сервисная модель (РСМ) Monq — позволяет отображать взаимосвязи между КЕ, что помогает визуализировать и исследовать влияние инцидентов на бизнес. Благодаря РСМ и настроенной модели здоровья можно в один клик провести анализ первопричин и, к примеру, выяснить — недоступность на каком хосте влияет на то, что прямо сейчас клиенты не могут оплатить товар или вызвать такси.
Читайте также: Упал интернет-магазин? Мониторинг бизнес-сервисов Monq поможет найти причину.
Настройка здоровья поможет приоритизировать инциденты. Допустим, один неработающий принтер в терминале аэропорта это приоритет уровня 4, но по мере отказа других, критичность инцидента возрастает. Это все можно настроить на стороне РСМ, создав КЕ «Печать билетов», а от КЕ принтеров проставить связи влияния. И как только «в живых» останется один единственный принтер, эскалировать по первому приоритету.
Автодискаверинг позволяет автоматически добавлять и обновлять КЕ, что исключает необходимость постоянного ручного ввода текущих изменений в ИТ-инфраструктуре и минимизирует связанные с ручным вводом ошибки (или когда “ручная CMDB” вообще не обновляется месяцами-годами).
Как пример, можно представить CMDB, в которой до 500 КЕ, которые еще реально обновлять вручную. Но регулярно делать это с базой в сотни тысяч КЕ уже физически невозможно. Пока все заявки будут обработаны, конфигурация снова станет неактуальной.
Улучшенная работа с инцидентами за счет интеграции CMDB с модулем сигналов, что позволяет быстро находить проблемные участки, обогащать их полезной информацией из КЕ и устранять инциденты с минимальными затратами времени.
Далее на этой части остановимся поподробней.
Синергия CMDB и управления инцидентами
Интеграция CMDB и сигналов в Monq создает обоюдную синергию, что существенно улучшает управление инцидентами. Рассмотрим, как это работает:
На стороне CMDB в Monq создается полная картина состояния всех КЕ. Благодаря ресурсно-сервисной модели, администраторы могут в реальном времени видеть следующие параметры:
— Здоровье объектов, включая показатели производительности и доступности, которые сигнализируют о проблемах или деградации.
— Корреляцию между объектами — если какой-то сервер испытывает повышенную нагрузку, это может повлиять на доступность исполняемого на нем приложения.
— Состояние жизненного цикла КЕ — здесь показывается информация о сроке эксплуатации и необходимости обновления ПО или замены оборудования.
Такой набор информации из CMDB помогает команде ITOps быстро принимать обоснованные решения и предотвращать сбои, прежде чем они начнут оказывать влияние на бизнес.
На стороне сигналов — они обогащаются данными из CMDB, что помогает сотрудникам ITOps в поддержке общей доступности корпоративной ИТ:
— Сигнал включает контекст, такой как расположение КЕ, ее взаимосвязи и статус. Например для КЕ «Касса самообслуживания 1409» в параметрах будет записан адрес магазина и номер телефона, что позволит оперативно связаться с людьми на местах и постараться в кратчайшие сроки решить проблему, такую как вернуть на место выпавший сетевой кабель.
— Дополнительные данные, в том числе заполненные поля, помогают инженерам быстрее находить первопричину проблемы. Это могут быть комментарии или история предыдущих аварий на тех же КЕ.
— Информация из CMDB позволяет создавать подробные постмортем-отчеты, выявлять повторяющиеся проблемы и не наступать на одинаковые грабли по многу раз.
Три плюса использования CMDB при реагировании на инциденты
1. Идентификация инцидентов
Встроенная CMDB помогает оперативно находить проблемные КЕ и ответственные за них подразделения. При работе с несколькими командами мониторинга очень важно своевременно оповестить нужного специалиста, а не спамить в общие чаты или звонить всем подряд.
Если поступает сигнал о проблеме с сервером, система сразу показывает, какие бизнес-сервисы зависят от этого сервера и подсвечивают всю необходимую информацию для правильной эскалации. Это позволяет корректно оценить приоритет инцидента и минимизировать ущерб. Monq также поддерживает интеграции с внешними системами, такими как Zabbix, что позволяет использовать готовые сценарии и ускоряет процесс ликвидации.
2. Сдерживание и ликвидация
CMDB поддерживает автоматизацию процессов устранения инцидентов. Интеграция Monq с внешними системами позволяет автоматизировать действия, такие как:
Изоляция проблемного узла,
Перенаправление трафика на резервный сервер,
Выполнение обновлений или перезагрузки ПО.
3. Этап закрытия: постмортем-отчеты и аналитика
CMDB сохраняет все данные о КЕ, связанных с инцидентом, что помогает при создании постмортем-отчетов. Это позволяет не только анализировать причину инцидента, но и выявлять тенденции. Например, если за месяц произошло несколько схожих инцидентов, система помогает найти общую причину.
Еще по теме: Управление инцидентами: 9 ключевых факторов успеха
Преимущества CMDB для инструментария автоматизации и AIOps
Использование CMDB совместно с инструментами автоматизации и AI CoPilot открывает перед командой ITOps возможности для повышения эффективности управления инцидентами и оптимизации процессов мониторинга. Предлагаю рассмотреть, как CMDB в сочетании с автоматизацией, представленной в Monq, улучшает работу ИТ-инфраструктуры.
Начну с сокращения времени реакции на инциденты: CMDB обеспечивает централизованный доступ к данным о конфигурационных единицах, включая их взаимосвязи, состояние и историю изменений. Благодаря этому, платформа Monq может автоматически связывать сигналы с соответствующими КЕ.
Например, при обнаружении аномалии система сразу идентифицирует затронутые объекты, позволяя инженерам оперативно приступить к устранению проблемы.
Как уже говорилось в ряде наших статей, инструменты автоматизации Monq, такие как low-code сценарии, позволяют создать цепочку действий для устранения типичных инцидентов, минимизируя время на ручную обработку и ускоряя процесс восстановления.
Повышение точности диагностики — при поступлении сигнала система мониторинга автоматически добавляет к нему данные, такие как:
Тип объекта;
Ответственное лицо и контактные данные;
История предыдущих инцидентов и изменений;
Связи с другими КЕ.
Эта информация помогает сотрудникам ITOps быстрее выявлять первопричину проблемы. Например, если сервер испытывает необычно высокую нагрузку, CMDB поможет выяснить, связано ли это с определенным приложением или с «подыхающим» серверным железом.
Оптимизация работы ITOps при инциденте — Monq предлагает настраивать процессы без написания кода (no-code конструктор), а также создавать сценарии для автоматического выполнения таких действий, как:
Перезагрузка серверов;
Изоляция зараженных узлов;
Уведомление ответственных лиц.
Эти сценарии освобождают специалистов ITOps от необходимости выполнять однотипные задачи вручную, что позволяет сосредоточиться на более сложных проблемах, повышать как свою компетентность, так и общую продуктивность команды.
Работа CMDB с low-code и no-code инструментами Monq в виде встроенного движка автоматизации позволяет создавать сценарии для управления инцидентами и оптимизации инфраструктуры:
Быстро находить взаимосвязанные объекты в случае сложных инцидентов;
Использовать готовые сценарии для устранения проблем;
Настраивать уведомления, чтобы ключевые члены ИТ-команды предприятия сразу получали информацию о критических инцидентах.
CMDB в связке с метриками: CMDB Monq также находится в постоянной синхронизации с метриками приложений и хостов. На каждом типе КЕ настраиваются правила, по которым определяется качество мониторинга.
Представим, что наш объект — это «Серверное помещение №4» . Далее, на типе КЕ «Серверная» указано, что для полноценного мониторинга нужно обеспечить сбор 5 разных метрик:
качество основного электропитания;
качество резервного электропитания;
качестве интернета;
температура.
Инженерам важно понимать, что пока мы собираем все эти данные мы можем быть уверены, что все ок. Monq позволяет отслеживать качество покрытия мониторингом, и как только перестанет поступать любая из метрик, инженер об этом узнает.
Заключение
CMDB в платформе Monq — это не просто база данных, а мощный инструмент для мониторинга и управления ИТ-инфраструктурой. Интеграция CMDB с модулем сигналов, ресурсно-сервисной моделью и инструментами автоматизации позволяет улучшить управление инцидентами и повысить стабильность всей инфраструктуры. Использование Monq помогает команде ITOps не только реагировать на инциденты, но и проводить мероприятия по их предотвращению, обеспечивая надежную поддержку бизнеса.
Приглашаем всех специалистов, которые хотят оптимизировать мониторинг сложной ИТ-инфраструктуры и улучшить управление инцидентами попробовать в действии платформу Monq, интегрирующей лучшие мировые практики. Приглашаем вас присоединиться к программе раннего доступа и протестировать наш бесплатный облачный сервис Monq On-Call и зарегистрироваться на ранний доступ.
Если ваша организация предпочитает держать все железо и сервисы в собственной локации, есть возможность поставить комьюнити OnPrem-версию большого Monq.