las68 20 фев 2013 в 20:48

Icinga в действии. Мониторинг Большого Адронного Коллайдера в ЦЕРН, Швейцария/Франция

4 мин

24K

Системное администрирование*IT-инфраструктура*Серверное администрирование*

Перевод

ЦЕРН и Icinga

ЦЕРН — Европейский центр ядерных исследователей, а кроме того это еще и столкновения частиц с частотой 40 МГц и 11000 оборотов по коллайдеру в минуту. Большой адронный коллайдер ЦЕРН – самый большой и мощный ускоритель частиц в мире. Icinga — бесплатная система мониторинга масштаба предприятия с открытым исходным кодом. Со своей стороны Icinga помогает устойчивой работе оборудования БАК на трёх из четырех детекторных площадок. Это оборудование ищет различия между материей и антиматерией, а также дальнейшее подтверждение существования бозона Хиггса и проверяет модели современной физики, в том виде, как мы ее сегодня знаем.

ЦЕРН – один из самых больших и уважаемых в мире центров научных исследований. Он занимается фундаментальной физикой, поиском первооснов Вселенной и законов ее существования. В ЦЕРНе для изучения составных элементов материи используются самые большие и сложные научные инструменты. Ускорители частиц разгоняют потоки частиц до высоких энергий, до тех пор пока они не соударяются друг с другом или со стационарными мишенями. Детекторы фиксируют и записывают результаты этих столкновений. Основанная в 1954 году, лаборатория CERN находится на франко-швейцарской границе рядом с Женевой. Это было одно из первых европейских совместных предприятий, в котором, на настоящий момент участвует 20 государств.

Более подробно о деятельности CERN и оборудовании экспериментов описано в статье Mgrin CERN — что из себя представляет организация за 900 млн долларов.

На глубине 100 м под франко-швейцарской границей находится 27-километровое кольцо, больше известное как Большой Адронный Коллайдер (БАК, Large Hadron Collider – LHC) который сталкивает субатомные частицы с энергией 14 ТэВ. Расположенные на 4-х площадках детекторы, суммарной массой до 12000 тонн, записывают данные экспериментов, в которых делаются попытки раскрыть исходные причины существования материи и анти-материи, проверяется существование бозона Хиггса, дополнительных измерений нашего пространства среди прочих. Для поддержания порядка и понимания процессов Icinga занимается мониторингом трёх из этих площадок: LHCb, CMS и ATLAS (рис.1):

Материя против антиматерии: мониторинг

Оборудование эксперимента LHCb (Large Hadron Collider Beauty) имеет 21 метр в длину, 13м в ширину и 10 м в высоту. С него идёт поток данных 60Гб/сек, в котором находится информация о происхождении материи и анти-материи. Система управления и цепочки сбора данных формируют информационный скелет эксперимента, работающего на машинах под управлением Windows и Linux, а также на встроенных (embedded) процессорах.

Поначалу мониторинг осуществлялся одним сайтом Nagios. Однако по мере того как IT-команда ЦЕРН попыталась масштабировать решение, на поверхность начали вылазить проблемы: средняя задержка проверки сервисов в 328 секунд оказалась слишком большой. Требовалось новое решение и администраторы обратились к Icinga и её активному сообществу.

Благодаря совместимости по конфигурациям, миграция с Nagios была относительно несложной. Тем не менее, для того чтобы облегчить будущую поддержку решения, конфигурационные файлы были реорганизованы, в них стали полностью использоваться группы и наследования между хостами. Таким образом, добавление нового объекта мониторинга в существующую категорию типа сервер СУБД, расчётный узел, система хранения и т.д. приводила к изменению только одного конфигурационного файла

Сейчас эксперимент LHCb мониторится одним экземпляром Icinga, установленным в режиме failover. Он работает совместно с исполнительными процессами mod-Gearman, удаленными агентами NRPE и NSClient++. Кроме того помимо проверок по SNMP и специализированных измерений производительности добавлено несколько специализированных проверок типа GPFS и контроля файловых систем.

Центральный сервер Icinga занимается составлением расписания проверок, которые 60 распределенных исполнительных процессов Mod-Gearman извлекают из своих очередей, выполняют их, а потом помещают результаты в еще одну очередь. (рис.2). В новой инсталляции, один экземпляр системы мониторинга Icinga в состоянии отслеживать обширное окружение в 2000 с лишним хостов и 40,000 сервисов. Задержка проверки сервисов уменьшилась с 328 секунд и сейчас составляет менее одной секунды.

Как проверить бозон Хиггса

На второй и третьей площадке находятся детекторы оборудования экспериментов CMS (Компактный Мюонный Соленоид — (Compact Muon Solenoid, КМС) и ATLAS (- An Toroidal LHC Apparatus, Тороидальный Аппарат БАК), с их помощью физики пытаются определить наличие бозона Хиггса, найти другие измерения пространства и темную материю.

В эксперименте CMS, Icinga отслеживает состояние 3000 хостов и 70 коммутаторов при помощи одного централизованного сайта мониторинга. Здесь работает один исполнительный процесс mod-gearman, NRPE и check_multi. С их помощью Icinga обрабатывает результаты 90000 проверок за каждые 2 минуты. Проверки самые разнообразные — начиная от контроля утилизации сети, наличия ошибок и количества свободного места на дисках до мониторинга состояния RAID-массивов, температуры оборудования и других специальных сервисов, так что Icinga приглядывает за всем комплексом существующего оборудования.

В эксперименте ATLAS развернуто два экземпляра Icinga, которые запущены на виртуальных машинах и работают бок о бок с Nagios. При общем количестве хостов в 3000, сервера Icinga мониторят 90 критичных сайтов на обоих сетях. Мониторинг помогает ATLAS максимизировать использование времени луча на коллайдере, и собрать для физиков наибольшее возможное количество данных.

Расширения на будущее

Уже сейчас есть планы по полной миграции системы мониторинга эксперимента ATLAS на Icinga, mod-gearman и ganglia, что позволит мониторить 3000 хостов и выполнять 100,000 проверок за один раз. Они будут включать в себя аппаратный мониторинг через IPMI, и вероятнее всего будут работать на одной центральной инсталляции системы мониторинга с исполнительным процессом mod-gearman, как и другие инсталляции icinga.

Расширение мониторинга Icinga в CMS также находится в работе. Планируется создать большее количество выделенных сервисов для мониторинга добавляемого в настоящее время программного обеспечения, на котором базируется эксперимент. В расширении границ мониторинга Icinga, команда IT CERN может быть уверена в том, что у них будет наилучшая эффективность в мониторинге БАК и эксперименты будут действительно реальной наукой. Занимательный факт — мониторинг icinga уже играл свою роль за кулисами, когда был обнаружен бозон Хиггса. И по мере того, как БАК и его оборудование продолжает сталкивать частицы и беспрепятственно собирать данные, Icinga будет работать и дальше на науку и предстоящие открытия.

Теги:

Хабы:

Icinga в действии. Мониторинг Большого Адронного Коллайдера в ЦЕРН, Швейцария/Франция

ЦЕРН и Icinga

Материя против антиматерии: мониторинг

Как проверить бозон Хиггса

Расширения на будущее

Публикации

Истории

Работа

Ближайшие события