amarao17 окт 2013 в 10:42

Мониторинг Хen'а в продакшене

4 мин

11K

Системное администрирование * Серверное администрирование *

Туториал

+14

Комментарии 8

kenny_opennix 17 окт 2013 в 19:04

Я мониторил zabbix, ставил прям на сам сервер, правда я использовал citrix xen.
Очень удобно подключил репозитарии поставил агента и все как на ладони.
P.S: репозитарий epel+ не стоит забывать об сдк.

amarao 18 окт 2013 в 05:50

zabbix не контролирует многие вещи, которые нужно контролировать. В частности — нет мониторинга странных доменов, нет проверок на трапнувшиеся приложения, флаппинг интерфейсов, таймауты и т.д.

unnamed 18 окт 2013 в 07:10

А чем то «из коробки» это все можно помониторить? Или часть под себя писалось?

amarao 18 окт 2013 в 09:29

под себя писалось. Готовых тестов я не знаю. Более того, насколько я понимаю, большинство админов вообще не знают про существование подобных проблем.

felvis 18 окт 2013 в 07:33

мониторил нагиосом+грейлогом, в принципе устраивало

amarao 18 окт 2013 в 08:54

А как отлавливали залипшие домены?

felvis 18 окт 2013 в 08:59

по сервисам, обычно на чилд доменах были сервисы под мониторингом
если связка пинг\сервис\ссх итыды начала звенеть в нагиосе — что-то нетак
ну и грейлог был настроен на ключевые слова
домены поднимались исключительно хелпдеском, поэтому не было ситуаций «юзер поднял виртуалку, она не встала и все про нее забыли»

FreeLSD 19 окт 2013 в 03:29

Специфичные знания.
Состояние dom0 (типовое):
LA (его превышение свидетельствует о проблемах, на нормальном dom0 la не должно выходить за 0.1, больше 2-3 — проблема)
cpu usage. Мониторить обычно дискомфортно (т.к. требует интервала замера), чаще всего реализуется через zabbix/cacti/munin
От 2 до 4 вполне нормальное состояние, особенно если используется xenstore, сделанный фрилансерами-любителями. Юзер легко может захотеть поднять десяток своих серверов одновременно. Будет отвлекать ложное срабатывание.

Свободную память (самого dom0). Если приложения из dom0 уйдут в своп, будет беда для всех виртуалок
best practice vm.swapiness в 0 для хост-систем, это в каждой брошюре написано pic.dhe.ibm.com/infocenter/lnxinfo/v3r0m0/topic/liaat/liaattuning_pdf.pdf

Состояние рейд-массива и жёстких дисков. Отказ или деградация дисков на хосте, даже если они используются «всего лишь» для root (то есть данные виртуалок отдельно), то тормозной /var/log может попортить нервы. Особое внимание в случае аппаратного рейда — надо найти утилиту вендора и использовать её. Софтовый рейд отлично обрабатывает mdadm, если ему почту настроить. Сами диски контролируются smartmontools или чем-то от вендора.
Зачем ставить контроллер на хосту за 10 штук, если есть mdadm.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий