Pull to refresh

Comments 7

По моим наблюдениям, главным местом, где протекает мониторинг, является не вопрос "кто мониторит мониторинг", а "работают ли наши системы оповещения"? Секреты для веб-хуков протухают, IP адреса попадают в спам-листы, карточки для оплаты аккаунтов для sms заканчиваются и т.д.

имея один маркер - можно покрасить всё, кроме этого маркера. имея два маркера - можно покрасить сообще всё. (С)

Всегда удивляло - ах ах, кто будет следить за системой слежения за мониторингом. Бесконечная рекурсия, один, 1 1...

Почему нельзя сделать, что бы 2 системы сделили друг за другом и не громоздить 3-ю, 4-ю - не понятно.

Почему нельзя сделать, что бы 2 системы сделили друг за другом и не громоздить 3-ю, 4-ю — не понятно.
Потому что умереть могут обе.

Я как раз недавно задумался, а можно ли построить полностью надёжную систему мониторинга, гарантированно уведомляющую о любой проблеме. Кроме hearbeat'а ничего в голову не пришло. Но беда в том, что за этим heartbeat'ом должен следить человек, так как если это делает программа, отсылающая уведомления при пропаже heartbeat'а, то невозможно отличить ситуации «всё нормально» и «heartbeat исчез, но и программа монитора сдохла». Человек же за регулярными пингами не сможет полноценно следить, со временем глаз замылится и пропуск сигналов может остаться незамеченным.

Получается, что надо держать несколько систем, которые будут следить друг за другом; делать их максимально независимыми, чтобы снизить вероятность их одновременного выхода из строя. Дополнительно очень важно эти системы тестировать именно на «плохих» сценариях. Иначе может получиться, что пока всё работает, и мониторинг живёт. А как только система упала, рухнет и мониторинг, потому что не смогли считать информацию о целевой системе и какая-нибудь переменная оказалась неинициализированной.

ну не знаю. Ceph-ы и прочие метро-кластеры в VMware живут же как-то. не можете отличить 2 падения - сделайте 3, 4 системы и пусть друг друга мониторят. вот падение оповещения, как выше сказали, намного более сложно отследить. либо надо регулярно heart beat посылать, что бы человек беспокоился не получив его, но это быстро задолбает. либо усложнять приёмник (читай приложение на телефоне), что бы он тихо проглатывал heart beat сообщения, но возбуждался при их отсутствии по расписанию или приходу аварийного сообщения.

Да, я именно про падение оповещателя говорил. Следить за оповещателем — может упасть и сама эта следилка. И так до бесконечности. Понятно, что в реальности трёх-четырёх уровней достаточно для покрытия любых практических целей. Но у меня проснулся исследовательский зуд, стало интересно, а возможно ли в принципе реализовать абсолютную стопроцентную надёжность оповещения (при наличии рабочего канала связи, разумеется). И вот как-то ничего не придумалось. Любое отсутствие оповещения об ошибках можно трактовать и как отсутствие ошибок, и как падение оповещателя; отличить одно от другого невозможно. Остаётся только heartbeat, с необходимостью ручного слежения за ним.

Как вариант, можно создать следилку, привязанную к фактическому рабочему месту человека. Пока heartbeat приходит, где-нибудь на экране горит зелёный индикатор. Потеряли сигнал — загорелся красным. А если программа-следилка упадёт, индикатор исчезнет с экрана, что позволяет это задетектить. Но привязка к месту не слишком удобна, оповещения принято кидать в более универсальные каналы: почту, мессенджеры, SMS…

ещё можно телефонное приложение сделать, дабы оно обменивалось с системой оповещения пингами. если приложение не видит оповещалку - аларм на телефоне (можно же сообщение какое вывести и крякнуть). если оповещалка не видит приложение - смс на телефон. т.е. есть проверяемый канал (в бекграунде, не отвлекая пользователя) и есть оповещение о проблемах с этим каналом по другой линии. ну а в случае события мониторинга - можно и приложением жужжать и смс посылать. но разумеется пользователь может пролюбить телефон. нужны дуплицированные пользователи.

Собственно, это и есть привязка к конкретному девайсу. Тут уже непринципиально, комп, ноутбук или смартфон. Но так да, если поставить такую приложуху на все устройства, где работает пользователь, то это во многом решает проблему. Вопрос лишь в произвольном расширении списка устройств. Если условную почту можно проверить стандартными средствами с любого утюга, то с оповещалкой придётся повозиться.
Sign up to leave a comment.