Tony Stark: Any military victims?
Jarvis: Not according to public records, sir.
Tony Stark: Bring up the thermogenic signatures again, factor in three thousand degrees.
Jarvis: The oracle cloud has completed analysis. Accessing satellites and plotting the last twelve months of thermogenic occurrence now.
> Если конкретно — сейчас вот, например, прошивка на RAID контроллере устарела по мнению контроллера, как расценивать эту ошибку?
А это ошибка или ворнинг?
Все триггеры расцениваются наверно, не от класса критичности, а порожденными экшенами, то есть «чего делать то»:
1. Если в системе возникло событие никак не влияющую на систему, то есть в рамках допустимых значений НОРМЫ системы, норма ессно высчитывается, то есть это некое отклонение от среднего нормы, то это информация, то есть потом мы будем знать при анализе когда система начала выходить из нормального состояния. ДЕЛАТЬ НИЧЕГО НЕ НАДО.
2. Возникает единожды или уже периодически выход за диапазон НОРМЫ процесса, тут информационное, но рекомендующую уже проанализировать систему, либо что-то сделать чтобы вернуть процесс в диапозон нормы, либо раздвинуть диапазон НОРМЫ, так как после анализа, может оказаться, что условия системы изменились.
Здесь без человеческого анализа «лучшее враг хорошего» скорее никак.
3. Ну и третий — это хоть единственное срабатывание, в диапазоне, в котором мы точно понимаем, что это экстренная ситуация
Ваш случай, это подплан номера 2, если система работает, с такой же стабильностью как и прежде, но есть вариант возможного улучшения, то тут человеческий анализ, либо обновить прошивку и считать чувствительность триггера нормальной, либо внести это событие внутрь нормы процесса и триггер реагировать его не будет.
Вы меня простите тут за ночные умствования, развлекаюсь :)
Я рад, что оказалась статья полезной.
Использовать «бочку» не моя идея, а кто создавал прототип, в котором было только 15 датчиков для теста и для графиков использовался какой-то ужас от digitemp :)
А чем Вас триггеры не устраивают?
1. Все зависит от системы и как быстро в ней растут параметры: если температура за последние 5 минут поднялась на 2 градуса, то просто информейшен — ничего не происходит
2. если на 10 — уже ворнинг, можно просыпаться
3. дальше алерт с вызовом пожарных :)
> но этот проект провалился, т.к. сотрудники не поддавались обучению и потеряли все смартфоны.
я лежу :))))
вы учить не умеете вы их на стажировку в KFC или Burger King отправили им там быстро IQ подняли :)
А зачем рабочий в этой схеме, то есть не понятно зачем ему вообще бежать проверять термометр, если у оператора есть это на графике, а к турбине нельзя прикрутить какой нить юнипинг с розеткой, а к форточке шаговый двигатель, тогда можно было бы и уровень открытия регулировать :)
Во-первых дата-центр не один ;)
+ куча всяческих узлов связи и серверных.
И планировалось не только мониторить температуру, а вообще инженерную инфраструктуру, и чтоб все это пищало и слало всем смс-ки, письма, будило бы операторов ДЦ из динамиков, то есть был рассмотрен потенциал развития системы и лучше Zabbix мне кажется ничего нет, на данный момент из open source.
Я не люблю солянку, я выберу ту систему которая максимально удовлетворяет задачам из коробки, но при этом расширяемая (желательно без писания кода на С++ :) )
В Zabbix ничего нет монструазного…
Хотите графиков с кучей аналитик вон Яндекс Graphite использует, так как Zabbix слабоват для их кол-ва серверов, именно с точки зрения визуализации.
Это только часть системы, другая часть собирала данные по SNMP с Uniping Server Solution.
Во-вторых нужна была нормальная современная система с веб-интерфейсом, нормальными графиками, и самое главное с нормальной системой триггеров и настройкой действий для них.
Так как в Zabbix можно посылать любые данные, он является прекрасным средством мониторинга практически чего угодно :) Если сам не может забрать данные то всегда есть zabbix_sender или сейчас можно написать подключаемый модуль.
Добавьте пожалуйста тэги: Big Data, Vertica, а то плохо ищется
может у вас точки соприкосновения возьникнут
Какой протокол? Зачем Вам нужна температура какого-то ЦОД :)?
Tony Stark: Any military victims?
Jarvis: Not according to public records, sir.
Tony Stark: Bring up the thermogenic signatures again, factor in three thousand degrees.
Jarvis: The oracle cloud has completed analysis. Accessing satellites and plotting the last twelve months of thermogenic occurrence now.
)))
А это ошибка или ворнинг?
Все триггеры расцениваются наверно, не от класса критичности, а порожденными экшенами, то есть «чего делать то»:
1. Если в системе возникло событие никак не влияющую на систему, то есть в рамках допустимых значений НОРМЫ системы, норма ессно высчитывается, то есть это некое отклонение от среднего нормы, то это информация, то есть потом мы будем знать при анализе когда система начала выходить из нормального состояния. ДЕЛАТЬ НИЧЕГО НЕ НАДО.
2. Возникает единожды или уже периодически выход за диапазон НОРМЫ процесса, тут информационное, но рекомендующую уже проанализировать систему, либо что-то сделать чтобы вернуть процесс в диапозон нормы, либо раздвинуть диапазон НОРМЫ, так как после анализа, может оказаться, что условия системы изменились.
Здесь без человеческого анализа «лучшее враг хорошего» скорее никак.
3. Ну и третий — это хоть единственное срабатывание, в диапазоне, в котором мы точно понимаем, что это экстренная ситуация
Ваш случай, это подплан номера 2, если система работает, с такой же стабильностью как и прежде, но есть вариант возможного улучшения, то тут человеческий анализ, либо обновить прошивку и считать чувствительность триггера нормальной, либо внести это событие внутрь нормы процесса и триггер реагировать его не будет.
Вы меня простите тут за ночные умствования, развлекаюсь :)
Я рад, что оказалась статья полезной.
Использовать «бочку» не моя идея, а кто создавал прототип, в котором было только 15 датчиков для теста и для графиков использовался какой-то ужас от digitemp :)
1. Все зависит от системы и как быстро в ней растут параметры: если температура за последние 5 минут поднялась на 2 градуса, то просто информейшен — ничего не происходит
2. если на 10 — уже ворнинг, можно просыпаться
3. дальше алерт с вызовом пожарных :)
я лежу :))))
вы учить не умеете вы их на стажировку в KFC или Burger King отправили им там быстро IQ подняли :)
А зачем рабочий в этой схеме, то есть не понятно зачем ему вообще бежать проверять термометр, если у оператора есть это на графике, а к турбине нельзя прикрутить какой нить юнипинг с розеткой, а к форточке шаговый двигатель, тогда можно было бы и уровень открытия регулировать :)
+ куча всяческих узлов связи и серверных.
И планировалось не только мониторить температуру, а вообще инженерную инфраструктуру, и чтоб все это пищало и слало всем смс-ки, письма, будило бы операторов ДЦ из динамиков, то есть был рассмотрен потенциал развития системы и лучше Zabbix мне кажется ничего нет, на данный момент из open source.
это просто для примера, взял из инета просто с таким же контролером.
У меня каждая ножка датчика на отдельный провод.
Так и думал, что есть какая-то «нашлепка», но в электронике не бум, так что usb-хаб c питанием спас, а то было мучение с барабашками :)
В Zabbix ничего нет монструазного…
Хотите графиков с кучей аналитик вон Яндекс Graphite использует, так как Zabbix слабоват для их кол-ва серверов, именно с точки зрения визуализации.
Я не очень хорошо понимаю электронику, поэтому называется «как шмогли» :)
Это только часть системы, другая часть собирала данные по SNMP с Uniping Server Solution.
Во-вторых нужна была нормальная современная система с веб-интерфейсом, нормальными графиками, и самое главное с нормальной системой триггеров и настройкой действий для них.
Так как в Zabbix можно посылать любые данные, он является прекрасным средством мониторинга практически чего угодно :) Если сам не может забрать данные то всегда есть zabbix_sender или сейчас можно написать подключаемый модуль.