Как стать автором
Обновить
95.5
Monq
Корпоративный ИТ-мониторинг

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров514

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.

Стартуем с базы: Configuration Management Database (CMDB) играет центральную роль в современных ИТ-системах, обеспечивая сбор, хранение и управление данными об инфраструктуре и ее элементах. В Monq реализована собственная CMDB, которая позволяет как управлять конфигурациями объектов, так и строить графовую модель для управления связями влияния одних объектов на другие.

Пример графа ресурсно-сервисной модели в Monq
Пример графа ресурсно-сервисной модели в Monq

CMDB, интегрированная в платформу Monq, обеспечивает оптимизацию мониторинга и управления инцидентами, делая ее ключевой частью эффективного ИТ-управления. Рассмотрим, как использование встроенной CMDB в Monq помогает не только управлять инцидентами, но и улучшать состояние всей инфраструктуры.

Наличие CMDB как конкурентное преимущество Monq

Основное отличие Monq от ряда других систем мониторинга на рынке заключается в глубокой интеграции CMDB с мониторингом и автоматизацией. Это создает целый набор не просто полезных, а действительно ключевых преимуществ:

  • Централизованная база данных, в которой собирается информация о конфигурационных единицах (КЕ), таких как серверы, приложения, виртуальные машины и сетевые устройства, — все это находится в одном месте, что упрощает управление. КЕ типизированы и для каждого типа свой атрибутивный состав, набор необходимых слотов мониторинга и своя модель уровня здоровья.

Настройка типов КЕ
Настройка типов КЕ
  • Ресурсно-сервисная модель (РСМ) Monq — позволяет отображать взаимосвязи между КЕ, что помогает визуализировать и исследовать влияние инцидентов на бизнес. Благодаря РСМ и настроенной модели здоровья можно в один клик провести анализ первопричин и, к примеру, выяснить — недоступность на каком хосте влияет на то, что прямо сейчас клиенты не могут оплатить товар или вызвать такси.

Читайте также: Упал интернет-магазин? Мониторинг бизнес-сервисов Monq поможет найти причину.

Настройки влияния компонентов на здоровье КЕ
Настройки влияния компонентов на здоровье КЕ

Настройка здоровья поможет приоритизировать инциденты. Допустим, один неработающий принтер в терминале аэропорта это приоритет уровня 4, но по мере отказа других, критичность инцидента возрастает. Это все можно настроить на стороне РСМ, создав КЕ «Печать билетов», а от КЕ принтеров проставить связи влияния. И как только «в живых» останется один единственный принтер, эскалировать по первому приоритету.

  • Автодискаверинг позволяет автоматически добавлять и обновлять КЕ, что исключает необходимость постоянного ручного ввода текущих изменений в ИТ-инфраструктуре и минимизирует связанные с ручным вводом ошибки (или когда “ручная CMDB” вообще не обновляется месяцами-годами). 

    Как пример, можно представить CMDB, в которой до 500 КЕ, которые еще реально обновлять вручную. Но регулярно делать это с базой в сотни тысяч КЕ уже физически невозможно. Пока все заявки будут обработаны, конфигурация снова станет неактуальной.

  • Улучшенная работа с инцидентами за счет интеграции CMDB с модулем сигналов, что позволяет быстро находить проблемные участки, обогащать их полезной информацией из КЕ и устранять инциденты с минимальными затратами времени.

    Далее на этой части остановимся поподробней.

Синергия CMDB и управления инцидентами

Интеграция CMDB и сигналов в Monq создает обоюдную синергию, что существенно улучшает управление инцидентами. Рассмотрим, как это работает:

  • На стороне CMDB в Monq создается полная картина состояния всех КЕ. Благодаря ресурсно-сервисной модели, администраторы могут в реальном времени видеть следующие параметры:

    — Здоровье объектов, включая показатели производительности и доступности, которые сигнализируют о проблемах или деградации.

    — Корреляцию между объектами — если какой-то сервер испытывает повышенную нагрузку, это может повлиять на доступность исполняемого на нем приложения.

    — Состояние жизненного цикла КЕ — здесь показывается информация о сроке эксплуатации и необходимости обновления ПО или замены оборудования.

    Такой набор информации из CMDB помогает команде ITOps быстро принимать обоснованные решения и предотвращать сбои, прежде чем они начнут оказывать влияние на бизнес.

  • На стороне сигналов — они обогащаются данными из CMDB, что помогает сотрудникам ITOps в поддержке общей доступности корпоративной ИТ:

    — Сигнал включает контекст, такой как расположение КЕ, ее взаимосвязи и статус. Например для КЕ «Касса самообслуживания 1409» в параметрах будет записан адрес магазина и номер телефона, что позволит оперативно связаться с людьми на местах и постараться в кратчайшие сроки решить проблему, такую как вернуть на место выпавший сетевой кабель.

    — Дополнительные данные, в том числе заполненные поля, помогают инженерам быстрее находить первопричину проблемы. Это могут быть комментарии или история предыдущих аварий на тех же КЕ.

    — Информация из CMDB позволяет создавать подробные постмортем-отчеты, выявлять повторяющиеся проблемы и не наступать на одинаковые грабли по многу раз.

Тут пример инцидента, который содержит поля, про которые мы говорим выше, и которые помогут быстрей устранять инциденты.
Тут пример инцидента, который содержит поля, про которые мы говорим выше, и которые помогут быстрей устранять инциденты.

Три плюса использования CMDB при реагировании на инциденты

1. Идентификация инцидентов

Встроенная CMDB помогает оперативно находить проблемные КЕ и ответственные за них подразделения. При работе с несколькими командами мониторинга очень важно своевременно оповестить нужного специалиста, а не спамить в общие чаты или звонить всем подряд. 

Если поступает сигнал о проблеме с сервером, система сразу показывает, какие бизнес-сервисы зависят от этого сервера и подсвечивают всю необходимую информацию для правильной эскалации. Это позволяет корректно оценить приоритет инцидента и минимизировать ущерб. Monq также поддерживает интеграции с внешними системами, такими как Zabbix, что позволяет использовать готовые сценарии и ускоряет процесс ликвидации.

2. Сдерживание и ликвидация

CMDB поддерживает автоматизацию процессов устранения инцидентов. Интеграция Monq с внешними системами позволяет автоматизировать действия, такие как:

  • Изоляция проблемного узла,

  • Перенаправление трафика на резервный сервер,

  • Выполнение обновлений или перезагрузки ПО.

3. Этап закрытия: постмортем-отчеты и аналитика

CMDB сохраняет все данные о КЕ, связанных с инцидентом, что помогает при создании постмортем-отчетов. Это позволяет не только анализировать причину инцидента, но и выявлять тенденции. Например, если за месяц произошло несколько схожих инцидентов, система помогает найти общую причину.

Еще по теме: Управление инцидентами: 9 ключевых факторов успеха

Преимущества CMDB для инструментария автоматизации и AIOps

Использование CMDB совместно с инструментами автоматизации и AI CoPilot открывает перед командой ITOps возможности для повышения эффективности управления инцидентами и оптимизации процессов мониторинга. Предлагаю рассмотреть, как CMDB в сочетании с автоматизацией, представленной в Monq, улучшает работу ИТ-инфраструктуры.

Начну с сокращения времени реакции на инциденты: CMDB обеспечивает централизованный доступ к данным о конфигурационных единицах, включая их взаимосвязи, состояние и историю изменений. Благодаря этому, платформа Monq может автоматически связывать сигналы с соответствующими КЕ. 

Например, при обнаружении аномалии система сразу идентифицирует затронутые объекты, позволяя инженерам оперативно приступить к устранению проблемы. 

Как уже говорилось в ряде наших статей, инструменты автоматизации Monq, такие как low-code сценарии, позволяют создать цепочку действий для устранения типичных инцидентов, минимизируя время на ручную обработку и ускоряя процесс восстановления.

Повышение точности диагностики — при поступлении сигнала система мониторинга автоматически добавляет к нему данные, такие как:

  • Тип объекта;

  • Ответственное лицо и контактные данные;

  • История предыдущих инцидентов и изменений;

  • Связи с другими КЕ.

Эта информация помогает сотрудникам ITOps быстрее выявлять первопричину проблемы. Например, если сервер испытывает необычно высокую нагрузку, CMDB поможет выяснить, связано ли это с определенным приложением или с «подыхающим» серверным железом.

Оптимизация работы ITOps при инциденте — Monq предлагает настраивать процессы без написания кода (no-code конструктор), а также создавать сценарии для автоматического выполнения таких действий, как:

  • Перезагрузка серверов;

  • Изоляция зараженных узлов;

  • Уведомление ответственных лиц.

Эти сценарии освобождают специалистов ITOps от необходимости выполнять однотипные задачи вручную, что позволяет сосредоточиться на более сложных проблемах, повышать как свою компетентность, так и общую продуктивность команды.

Работа CMDB с low-code и no-code инструментами Monq в виде встроенного движка автоматизации позволяет создавать сценарии для управления инцидентами и оптимизации инфраструктуры:

  • Быстро находить взаимосвязанные объекты в случае сложных инцидентов;

  • Использовать готовые сценарии для устранения проблем;

  • Настраивать уведомления, чтобы ключевые члены ИТ-команды предприятия сразу получали информацию о критических инцидентах.

Матрица эскалации на базе no-code конструктора.
Матрица эскалации на базе no-code конструктора.

CMDB в связке с метриками: CMDB Monq также находится в постоянной синхронизации с метриками приложений и хостов. На каждом типе КЕ настраиваются правила, по которым определяется качество мониторинга. 

Представим, что наш объект — это «Серверное помещение №4» . Далее, на типе КЕ «Серверная» указано, что для полноценного мониторинга нужно обеспечить сбор 5 разных метрик:

  • качество основного электропитания;

  • качество резервного электропитания;

  • качестве интернета;

  • температура.

Инженерам важно понимать, что пока мы собираем все эти данные мы можем быть уверены, что все ок. Monq позволяет отслеживать качество покрытия мониторингом, и как только перестанет поступать любая из метрик, инженер об этом узнает.

Отслеживание качества покрытия мониторингом КЕ
Отслеживание качества покрытия мониторингом КЕ

Заключение

CMDB в платформе Monq — это не просто база данных, а мощный инструмент для мониторинга и управления ИТ-инфраструктурой. Интеграция CMDB с модулем сигналов, ресурсно-сервисной моделью и инструментами автоматизации позволяет улучшить управление инцидентами и повысить стабильность всей инфраструктуры. Использование Monq помогает команде ITOps не только реагировать на инциденты, но и проводить мероприятия по их предотвращению, обеспечивая надежную поддержку бизнеса.

Приглашаем всех специалистов, которые хотят оптимизировать мониторинг сложной ИТ-инфраструктуры и улучшить управление инцидентами попробовать в действии платформу Monq, интегрирующей лучшие мировые практики. Приглашаем вас присоединиться к программе раннего доступа и протестировать наш бесплатный облачный сервис Monq On-Call и зарегистрироваться на ранний доступ.

Если ваша организация предпочитает держать все железо и сервисы в собственной локации, есть возможность поставить комьюнити OnPrem-версию большого Monq.

Теги:
Хабы:
+17
Комментарии0

Публикации

Информация

Сайт
monq.ru
Дата регистрации
Численность
51–100 человек
Местоположение
Россия

Истории