@ESergey12 апр 2016 в 08:58

Бесплатный мониторинг CRC ошибок

4 мин

15K

Программирование *

Из песочницы

Комментарии 28

@KorP 12 апр 2016 в 10:38

В любой инфраструктуре должно быть средство централизованного мониторинга, Nagios и Zabbix являются бесплатными и широкоиспользуемыми решениями, которое это в состоянии мониторить…

@ESergey 12 апр 2016 в 11:47

Zabbix Nagios и Cacti системы ориентированные на работу с SNMP и Syslog, если сеть хранения данных не большая, то они подойдут, но если в сети сотни коммутаторов этот метод не будет оптимальным т.к. в мониторинге нужно описывать каждый порт, и если он не был в нужном vSAN изначально, то автоматически он не отдискавериться

@blind_oracle 12 апр 2016 в 12:37

то автоматически он не отдискавериться

Это почему?

@ESergey 12 апр 2016 в 13:19

Хороший вопрос, иногда проходит, иногда приходиться пересоздавать устройство, но это не принципиально, главное что все равно приходиться подкручивать мониторинг, при изменении конфигурации vSAN. Если таких изменений много, то это дополнительные трудозатраты и увеличение влияния человеческого фактора. А при жестком правиле составления имени свича, можно вообще ничего не менять в мониторинге, все появится само)
Добавил имя в ДНС, и он уже на мониторинге.

@KorP 12 апр 2016 в 15:10

Если у вас такая инфраструктура, что одних только SAN коммутаторов — сотни, и вы это мониторите подобными скриптами… Ну жалко мне вас, что ещё сказать. Ну и видимо вам нужны хорошие специалисты по Zabbixу. У нас конечно не сотни коммутаторов, но проблем мы не испытываем никаких.

@ESergey 12 апр 2016 в 17:08

Коммутаторы мониторятся одновременно 3-мя системами, каждая выполняет свои роли: одна мониторит линки и жизненно важные показатели свичей, вторая собирает полные метрики фабрик, но плохо умеет предупреждать о возможной аварии, третья как раз описана в данной статье, уже внедряется четвертая, которая должна заменить все остальные, но надежна невелика.

@KorP 12 апр 2016 в 17:14

При всём уважении, но называть этот наколенный скрипт СИСТЕМОЙ и ставить её в один ряд с полноценными система мониторинга… или остальные 2 системы — аналогичные скрипты?
Очень интересно было бы узнать где вы так инфраструктуру мониторите

@ESergey 12 апр 2016 в 17:54

Остальные 3 системы — лицензионное ПО купленное за деньги, причем не малые. Скрипт можете называть как угодно, иногда чем проще тем лучше. Один скрипт конечно не система, но десяток подобных скриптов позволяет автоматизировать много полезных задач. Zabbix нам в этом не помог, но мы на него не в обиде и удачно пользуем для других целей. По предыдущему опыту внедрения систем управления blade серверами, могу сказать одно: тот функционал, который был нам нужен, за пару дней мы написали на коленке сами еще 5 лет назад, у вендора он появился только год назад, и то за деньги.

@KorP 12 апр 2016 в 18:15

Остальные 3 системы — лицензионное ПО купленное за деньги
третья как раз описана в данной статье
нет-нет, вы не подумайте что я к словам то придираюсь, я просто пытаюсь понять — что же за такие бестолковые системы, за немалые, как я думаю деньги, не в состоянии покрыть ваши нужды, которые покрываются данным скриптом, накиданном за сколько? за обеденный перерыв? Я повторю вопрос — может вам просто найти более квалифицированных специалистов по системам мониторинга? У нас заббикс прекрасно отлавливает ошибки на брокейдах, а вы упорно продолжаете убеждать читателей, что ваш скрипт на много лучше любой системы мониторинга и в частности заббиска. Где тут ребята из Badoo? Они вас быстро на путь истинный наставят :)))

@ESergey 13 апр 2016 в 16:19

Я повторю вопрос — может вам просто найти более квалифицированных специалистов по системам мониторинга?

Специалисты по мониторингу у нас хорошие, но заббикс они почему то не очень любят, возможно не тянет нагрузку в 5к устройств и по 10 тестов на каждом, но при случае я обязательно у них уточню) Развертывать и сопровождать заббикс только для SAN коммутаторов, ну не знаю, по трудозатратам думаю это не проще.

У нас заббикс прекрасно отлавливает ошибки на брокейдах, а вы упорно продолжаете убеждать читателей, что ваш скрипт на много лучше любой системы мониторинга и в частности заббиска

Я не никого не убеждаю ~~я просто уверен~~ в том, что заббикс хуже, это прекрасная система, я хотел рассказать, что есть другой способ, у него есть как плюсы так и минусы.

что же за такие бестолковые системы

Вполне толковые системы, но одна не умеет автоматом дискаверить новые порты, а вторая бывает запаздывает с оповещением.
В скриптовом методе есть еще преимущества, например можно настроить сверку залогиненных устройств по WWN, проверку системного таймера, проверку целостности фабрики, отслеживать появление новых WWN, и много еще чего хорошего. Как сделать это на заббиксе я не знаю(
Кстати если есть контакты людей, которые могут написать подобную вещь за обеденный перерыв (45 мин) ~~и не хотят очень много денег~~, поделитесь пожалуйста.

@vadoo 13 апр 2016 в 12:32

В том же cacti данные можно получать через скрипт. Например, в случае, если с snmp надо хитро работать

@ESergey 13 апр 2016 в 16:21

Почти в каждой системе мониторинга есть такая возможность, вопрос как потом будет обрабатываться полученный ответ.

@DenIvEvg 12 апр 2016 в 11:54

Вы меня опередили… :)

@nuclear_skillet21011 12 апр 2016 в 11:36

Я почти ничего не понял, но мне очень понравилось)

@blind_oracle 12 апр 2016 в 11:46

Какой-то вы изобрели ~~ужасный колхоз~~ велосипед.

а snmp дерево может значительно меняться как на разных свичах, так и при переходе на новый FOS.

Это что-то странное, есть MIB-ы в которых всё что надо прописано обычно достаточно жёстко. Если Brocade меняет MIBы на ходу, это камень в их огород. С таким же успехом может смениться и CLI, который вы в своих скриптах эксплуатируете.

Правильным способом было бы использовать Zabbix + Low level discovery по SNMP.
Оно и порты само обнаружит, и триггеры необходимые по шаблону создаст и письмо или смску пришлёт когда проблему обнаружит.

А то, что в статье — костыль.

@ESergey 12 апр 2016 в 12:42

Если Brocade меняет MIBы на ходу, это камень в их огород. С таким же успехом может смениться и CLI, который вы в своих скриптах эксплуатируете.

Если вы обратите внимание ссылка то для каждой версии FOS свой MIB, и в этом нет ничего плохого, т.к. появляются новые опции и нужно как то продавать BNA)
С формулировкой «костыль» не согласен, система сама в себе, на FOS начиная с 6-ой версии вывод параится корректно, вся настройка и сопровождение заключается в добавлении новой строки в список свичей, никакого дискаверинга при добавлении нового порта в продуктивный vSAN — не требуется.

@blind_oracle 12 апр 2016 в 12:52

и в этом нет ничего плохого, т.к. появляются новые опции

Дерево OIDов конкретной железки обычно разделено на множество разных MIBов и добавление новых опций приводит к изменению лишь некоторых из них. В любом случае, как я говорил, с CLi может быть так же.

С формулировкой «костыль» не согласен, система сама в себе, на FOS начиная с 6-ой версии вывод параится корректно, вся настройка и сопровождение заключается в добавлении новой строки в список свичей, никакого дискаверинга при добавлении нового порта в продуктивный vSAN — не требуется.

Всё это прекрасно, но ваше решение от этого не становится менее велосипедным или костыльным.
Вместо того, чтобы почитать мануал к Zabbix и реализовать нормальную схему, в которой мониторились бы все необходимые параметры ваших коммутаторов, а не только CRC у SFP, вы написали костыль который делает только одно.

А если понадобится мониторить процессор, память или температуру — накидаете ещё пару костылей?

@ESergey 12 апр 2016 в 13:02

А если понадобится мониторить процессор, память или температуру — накидаете ещё пару костылей?

Для мониторинга показателей жизнедеятельности самого свича (ping, cpu, fan, ps, и тд.) как раз лучше использовать zabbix или подобное. Здесь все просто, добавил устройство, и забыл.

@blind_oracle 12 апр 2016 в 13:09

Чем же ошибки CRC на портах так принципиально отличаются от других параметров?

@ESergey 12 апр 2016 в 13:33

Процессор, вентилятор или блок питания, присутствует в конфигурации свича изначально. И если даже блок питания воткнули потом, все равно будет ветка состояния всех вентиляторов, БП, CPU и тд. и если в этой ветке видим красный флаг, то что-то не в порядке. При использовании vSAN, при первичном дискаверинге устройства, порты находящиесы в другом vSAN не будут найдены и появятся только при повторном дискаверинге или прописыванию ветки вручную.

@blind_oracle 12 апр 2016 в 13:37

В заббиксе обнаружение новых итемов на хостах происходит с некоторой заданной периодичностью, допустим раз в 10 минут. Причём для каждого типа можно указать свою периодичность. Так что не вижу никакой проблемы — все нужные порты обнаружатся автоматически через заданное время.

@ESergey 12 апр 2016 в 14:08

В теории да, а на практике даже ручной дискаверинг не всегда отрабатывал корректно. Можно было углубиться в допиливание имеющийся системы, но непонятно сколько времени на это бы ушло + интереснее было решить проблему подойдя с другой стороны.

@blind_oracle 12 апр 2016 в 14:24

Нет никаких проблем с дискаверингом в заббиксе. Он проходится по SNMP дереву указанному и формирует необходимые итемы и триггеры, если их нет. Всё.

@ESergey 12 апр 2016 в 12:55

В комментариях через один упоминание про zabbix, а есть ли живые примеры реализации на zabbix или zabbix подобных системах, мониторинга crc ошибок, и уровня затухания сигнала на sfp модулях?

@blind_oracle 12 апр 2016 в 13:12

У меня это всё прекрасно мониторилось именно Zabbix-ом, я же не просто теорию вещаю.
Железяки были, если говорить про SAN, Cisco MDS 9148. Но и Ethernet коммутаторы мониторились аналогично, принципиальной разницы между ними никакой нет.

@ESergey 12 апр 2016 в 13:37

Виртуальные фабрики использовались?

@blind_oracle 12 апр 2016 в 13:46

Использовался дефолтный VSAN=1, других не было. Мне кажется это не особо относится к мониторингу параметров SFP на коммутаторах.

@ESergey 12 апр 2016 в 13:56

Если используется дефолтный свич, то все порты можно отдискаверить сразу.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий