Pull to refresh

Comments 42

Глюк. После обновления страницы все нормально.
Хорошая статья, попробуем. Действительно легкость написания плагинов очень привлекает.
UFO just landed and posted this here
тоже им пользуюсь. но это скорее средство "поддержания сервисов на плаву"
Еще есть такая вещь как Zabbix
Позволяет делать эскалацию мониторинга
Прекрасно знаю. Но ИМХО Zabbix - хоть и лучше Nagios'а, но все равно истинную силу показывает при мониторинге... ну... хотя бы 50-100 машин. Для меньшего количество это пушка против воробьёв
заббикс ставится за пять минут, плюс ещё по 5 минут на агентов.
слышал о нем пару не лестных отзывов, что дескать что нибудь у него сломается и приходится чинить.
хм… ниче не ломается, стоит уже год, мониторит всё, если что-то упало варнит на мыло, смс и пытается поднять.

удобная мониторилка (большое поле по вертикали сервера, по горизонтали сервисы) если что-то упало клетка становится красной. очень наглядно.
У rrd-based вещей есть один недостаток: при резком и однократном всплеске, автоматический масштаб подравнивается под этот пик и обычные колебания просто не видны.

p.s. искал как-то не слишком навороченную систему на 7-10 хостов, чтобы плагины/агенты можно было б на питоне писать, с первого взгляда увидел только сырой pymon и zenoss, который сходу не осилил... в итоге пока что munin работает.
echo 'graph_noscale true' насколько я помню помогает + upper_limit (они позволяют жестко задать верхний лимит. пики просто уйдут вверх)
Ээээм. ЕМНИП, это настройки самого rrd, плюс нужно иметь оценку верхнего порога. А в munin, насколько знаю, таких настроек нет.
Спасибо за инфу, запомним...
Действительно, нагио хоть и стоит у многих клиентов, однако не сказал бы что им часто пользуешься.
Спасибо!
Я тоже использую, 10-15 серверов.
Вот проблемка, с которой я столкнулся http://sharifulin.livejournal.com/27286.…
И еще munin начинает нереально спамить, если что-то случилось.
Я сделал "хитрый" скрипт отправки, который отправляет уведомление только в первый и последний раз.
Я юзаю купленный HP OpenView, тож проблема спама аналогичным образом решается. Там тож на событие можно скрипты перловские вешать. А для простых оповещений, написал простой скрипт, на том же перле, который пингует мои основные ноды и если пинг не проходит в течении минуты, шлет мне письмо на мыло (на мобилку в виде SMS, есть у меня такое мыло). Как поднялся нод, тоже, один SMS. http://213.87.17.33/check_node.gz - тут лежит, если интересно.
у нас нагиос мониторит около 300 серверов. нареканий нет. помимо стандартных плагинов полно самописных.
плагины для нагиоса писать проще простого - любой исполняемый файл, имеющий на выходе stdout и код возврата в диапазоне от 0 до 3

на мой взягляд Nagios - это система оповещений о проблемах, чем просто "монитор", именно поэтому один из его недостатков - отсутствие (нормальных) графиков

PS
нагиос тоже кстати не юзает БД
обьясните мне дураку, чем же это так круто «не использовать бд».
UFO just landed and posted this here
Я правильно понял что мониторить можно только сервера?
Или свитчи по snmp тоже можно?
А почему всем так не нравится nagios? Под него плагины так же просто пишутся, хорошо масштабируемый. И графики в нем тоже прекрасно можно строить.
Использовал и Nagios и Zabbix.
+ Nagios есть плагины практически под все задачи
+ Мало требует ресурсов
- Страшный интерфейс
- Муторно писать конфиги для каждого сервера.

Zabbix
+ Большая часть того что нужно идет в комплекте
+ Агенты могут передавать не только статус какого-то процесса (жив/мертв) но и вообще любую инфу. Можно мониторить например, количество активных соединений в nginx, количество запросов в секунду в mysql, загрузку диска и т.п.
+ Поддержка тимплейтов. Создаем тимплейт веб-сервер и подключаем мониторинг N парамеров. Затем для сервера1, сервера2, сервера3 устанавливаем, что нужно использовать это тимплейт. Очень сильно экономит время для настройки.
- При большом количестве параметров неплохо грузит систему.
В nagios'е можно назначать серверам те же самые template'ы.
Не использовал Nagios, но при знакомсте с документацией сделал вывод, что он то как раз должен сильно нагружать систему при большом количестве стоящих на мониторинге узлов и опрашиваемых на них параметрах! Это видно хотя бы по тому, что для опроса каждого устройства он создает новый процесс.
мониторинг параметров весьма полезен, например удобно смотреть граффики снятые со smart или очередь почтовую.

большое количество это сколько?
А в портах он есть? Что-тоя не нашел. whereis munin ничего не даёт.
Странно вы ищите :)

/usr/ports# make search name="munin"
Port: munin-main-1.2.5
Path: /usr/ports/sysutils/munin-main
Info: Collector part of Munin
Maint: lupe@lupe-christoph.de
B-deps: freetype2-2.3.5 gettext-0.16.1_3 gmake-3.81_2 libart_lgpl-2.3.19,1 libiconv-1.11_1 p5-Authen-SASL-2.10_1 p5-Date-Manip-5.44 p5-Digest-1.15 p5-Digest-HMAC-1.01 p5-Digest-MD5-2.36 p5-Digest-SHA1-2.11 p5-GSSAPI-0.24 p5-HTML-Template-2.9 p5-MIME-Base64-3.07 p5-Net-1.22,1 p5-PathTools-3.25 p5-Scalar-List-Utils-1.19,1 perl-5.8.8_1 pkg-config-0.22_1 png-1.2.22 rrdtool-1.2.23
R-deps: freetype2-2.3.5 libart_lgpl-2.3.19,1 p5-Authen-SASL-2.10_1 p5-Date-Manip-5.44 p5-Digest-1.15 p5-Digest-HMAC-1.01 p5-Digest-MD5-2.36 p5-Digest-SHA1-2.11 p5-GSSAPI-0.24 p5-HTML-Template-2.9 p5-MIME-Base64-3.07 p5-Net-1.22,1 p5-PathTools-3.25 p5-Scalar-List-Utils-1.19,1 perl-5.8.8_1 pkg-config-0.22_1 png-1.2.22 rrdtool-1.2.23
WWW: http://www.linpro.no/projects/munin/

Port: munin-node-1.2.5_1
Path: /usr/ports/sysutils/munin-node
Info: Node-specific part of Munin
Maint: lupe@lupe-christoph.de
B-deps: gettext-0.16.1_3 gmake-3.81_2 libiconv-1.11_1 p5-IO-Multiplex-1.09 p5-Net-Server-0.97 perl-5.8.8_1
R-deps: p5-IO-Multiplex-1.09 p5-Net-Server-0.97 perl-5.8.8_1
WWW: http://www.linpro.no/projects/munin/
whereis ищет не в портах а в том что уже установлено у вас
bm@high[~]
>whereis mpd4
mpd4: /usr/ports/net/mpd4

bm@high[~]
>pkg_info | grep mpd4

Как видите не только в том, что установлено, но и по ФС в том числе.
Потому что
rs# whereis munin
munin:
rs# whereis munin-main
munin-main: /usr/ports/sysutils/munin-main
rs# whereis munin-node
munin-node: /usr/ports/sysutils/munin-node

whereis работает не так как вы ожидаете :)
Ну да. Только я же не знал изначально правильных названий пакетов.
Интересна максимальная нагрузка, которую способная выдерживать данная система? В свое время делал обзор систем мониторинга, рассматривал Cacti, Nagios, Zabbix и Zenoss. Пришел к выводу, что все эти системы могут справляться с нагрузкой в 1000 узлов с 10 параметрами на каждом, но вот при большей нагрузке, у некоторых начинаются проблемы... и дальше зависит от того, насколько мощное у вас железо и как хорошо вы настроили системы. В общем такие решения не годятся для крупных компаний с десятками тысяч сетевых устройств. Кстати, на нашем российском рынке появляются игроки, способные решать такие проблемы, разрабатывающие собственные OSS-системы.
Странно как-то, а почему так мало ? Эти системы я, правда, не пробовал, однако у меня есть самописная, которая собирает, анализирует и хранит в RRD порядка 500K параметров с более чем тысячи единиц оборудования.
Машина, на которой это работает, вроде не очень мощная, я бы даже сказал, средненькая по нынешним временам - dual-core AMD Opteron 2.4GHz, 2G памяти. А по вашим подсчетам получается, что проблемы начинаются на чуть ли не на порядок меньшем количестве параметров.
500K - это достаточно много, но есть несколько вопросов. По каким протоколам опрашиваются устройства и сколько времени занимает эта процедура? На чем написана ваша программа?
Сетевые устройства - в основном по SNMP, некоторые дополнительно по RSH. Сервисы на серверах опрашиваются с использованием нативных протоколов - RADIUS, POP3, SMTP, DNS, и т.д. Сколько занимает - ну, зависит от того, насколько у устройства мощный проц :-) Написана на Tcl.
Может вы подскажите,?
никак не могу понять, как получать графики не стандартно (день, неделя, месяц, год), а, например, час-день-неделя-месяц, поскольку графики за год мне не особо нужны, а вот получить более подробную картинку хотелось бы.
Sign up to leave a comment.

Articles