Pull to refresh
  • by relevance
  • by date
  • by rating

Moira: Realtime Alerting

Контур corporate blog Python *Go *Development for Linux *

Контур делает несколько десятков продуктов, каждый из которых состоит из нескольких десятков микросервисов, каждый из которых запущен на десятках серверов.

Эта инфраструктура порождает метрики на всех технологических уровнях — нагрузка на железо, состояние ОС, метрики приложений. Исходные данные собираются в один большой кластер Graphite. Сейчас у нас есть миллион уникальных метрик, по которым суммарно генерируется 20 тысяч значений в секунду.

Ясно, что за миллионом метрик не уследить глазами на телевизорах и дашбордах — нужна система отправки уведомлений о нештатных ситуациях. Перед тем как написать свою систему Moira, мы использовали для этой задачи Seyren.
Читать дальше →
Total votes 18: ↑18 and ↓0 +18
Views 15K
Comments 4

Мониторинг и оповещения для Azure Backup

Microsoft Azure
Отличная новость для тех, кто уже использует или планирует использовать Azure Backup. Microsoft выпустила в preview функцию, которая была лидером списка пожеланий пользователей — мониторинг и оповещения о статусе заданий по резервному копированию.

Теперь вам будет доступна единая консоль для просмотра статуса задач в вашем Recovery Services Vault, и возможность оповещения по почте для интересующих вас событий. Некоторые технические подробности под катом.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 1.8K
Comments 0

Prometheus — практическое использование

IT Infrastructure *Server Administration *
Sandbox
Одной из важнейших задач при разработке приложений с микросервисной архитектурой является задача мониторинга. Слежение за состоянием сервисов и серверов позволяет не только вовремя реагировать на неисправности, но и анализировать их работу. Наличие такой информации трудно переоценить, ведь она предоставляет дополнительные возможности по улучшению производительности и качества работы Вашего ПО.

image

К счастью, существует множество решений задачи мониторинга, как платных, так и бесплатных. Я же хочу поделиться опытом практического использования open source системы мониторинга Prometheus.
Читать дальше →
Total votes 16: ↑15 and ↓1 +14
Views 80K
Comments 8

Оповещение на почту в режиме реального времени. Реально? Или как сделать Alert в Splunk — Часть 1

TS Solution corporate blog Information Security *System administration *IT Infrastructure *Server Administration *
Tutorial
Сколько времени проходит с момента возникновения какого-то важного события до реакционных действий? Зачастую очень много! Одним их факторов влияющих на время реакции служит несвоевременное информирование персонала, отвечающего за принятие решений.



Сегодня мы расскажем вам о том, как получать уведомления о возникновении важных инцидентов безопасности, критическом состоянии IT систем, существенных отклонениях от нормы различных показателей или о других интересных для вас событиях в режиме реального времени и в удобном формате, в частности по электронной почте.

Реализовывать алерты, или иначе говоря оповещения, будем в Splunk, продукте, специализирующемся на анализе машинных данных, о котором мы писали ранее.
Читать дальше →
Total votes 13: ↑10 and ↓3 +7
Views 5.4K
Comments 3

Оповещение в Telegram и Slack в режиме реального времени. Или как сделать Alert в Splunk — Часть 2

TS Solution corporate blog Information Security *System administration *IT Infrastructure *Server Administration *
Tutorial
Мы продолжаем тему алертинга в Splunk. Ранее мы говорили о том, как настроить отправку оповещений на электронную почту, а сегодня покажем Вам, как отправлять уведомления в мессенджеры, такие как Telegram и Slack.

В статье вы найдете пошаговую инструкцию по настройке.
Читать дальше →
Total votes 10: ↑10 and ↓0 +10
Views 12K
Comments 3

Splunk Scripted Input. Или как использовать скрипты для получения данных о работе систем и анализировать их в Splunk

TS Solution corporate blog System administration *IT Infrastructure *Server Administration *Big Data *
Tutorial
Ранее мы писали, как можно загрузить логи в Splunk из каталога или с помощью syslog, рассказывали как забирать стандартные виндовые и линуксовые события, но что если нам необходимо получать более гранулярную информацию о работе наших систем?
В таком случае на помощь приходят скрипты!



Когда, какие и как можно использовать скрипты в Splunk для получения данных — вы можете узнать под катом.
Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 2.8K
Comments 0

Простой failover для вебсайта (мониторинг + динамический DNS)

Configuring Linux *System administration *
Tutorial
В этой статье я хочу показать, как легко и бесплатно можно сделать failover схему для веб-сайта (или любого другого интернет-сервиса) на комбинации мониторинга okerr и динамического DNS сервиса. То есть, в случае любых проблем с основным сайтом (начиная от проблемы с «PHP Error» на странице, и до нехватки места или просто подозрительно малом числе заказов в случае интернет-магазина), новые посетители будут направлены на второй (третий, и так далее) заведомо работающий сервер, или же на «Sorry» страничку, где им вежливо объяснят, что «есть проблема, мы уже в курсе и уже чиним, скоро починим» (а вы в этом случае на самом деле будете уже в курсе и сможете чинить).
Читать дальше →
Total votes 11: ↑9 and ↓2 +7
Views 7.4K
Comments 6

Moira участвует в Google Summer of Code 2019

Контур corporate blog Open source *Go *IT career DevOps *

В этом году пройдёт пятнадцатый Google Summer of Code, и в нём примет участие 206 проектов с открытым кодом. Для 27 проектов этот год будет первым, в том числе для Moira. Это наша любимая система для уведомлений о нештатных ситуациях, созданная в Контуре.



Я слегка поучаствовал в том, чтобы Мойра попала в GSoC, так что сейчас расскажу из первых рук, как случился этот маленький шаг для open source и огромный скачок для Мойры.

Читать дальше →
Total votes 19: ↑19 and ↓0 +19
Views 2.9K
Comments 0

Метод CASE: гуманный мониторинг

Southbridge corporate blog System administration *Server Administration *DevOps *
Translation


Дзииииииинь! На часах 3 утра, вы смотрите чудесный сон, и вдруг — звонок. На этой неделе вы дежурите, и, видимо, что-то случилось. Автоматизированная система зовет разобраться, в чем дело. Это важный момент управления современными компьютерными системами, но давайте посмотрим, как сделать уведомления удобнее для людей.


Знакомьтесь с философией мониторинга, родившейся за несколько десятилетий моих дежурств в разных командах по мониторингу. На нее во многом повлияла настоящая библия от Роба Еващука My Philosophy on Alerting (Моя философия уведомлений), включенная в книгу по Google SRE, и книга Джона Олспо Considerations for Alert Design (Замечания по настройке оповещений).


Келли Данн, Ариджит Мукхерьи и Максим Петаццони — спасибо за помощь в редактировании поста.


Что такое CASE?


Я решил придумать красивую аббревиатуру, как у метода USE Брендана Грегга или метода RED Тома Уилки. Я зову это метод CASE. Он описывает четыре момента, на которые нужно обратить внимание при работе с автоматическим мониторингом:

Total votes 28: ↑28 and ↓0 +28
Views 6.7K
Comments 3

PagerDuty, или Почему по ночам может не спать отдел эксплуатации

FUNCORP corporate blog System administration *DevOps *
Чем сложнее система, тем больше она обрастает всевозможными алертами. И возникает потребность на эти самые алерты реагировать, агрегировать их и визуализировать. Думаю, ситуация, знакомая многим до нервного тика.

Решение, о котором пойдёт речь, не самое неожиданное, но полноценной статьи по этой теме поиск не выдаёт.

Поэтому я решил поделиться опытом FunCorp и рассказать о том, как выстроен процесс дежурств, кто звонит, почему и как на это всё можно смотреть.


Осторожно, много картинок
Total votes 28: ↑27 and ↓1 +26
Views 9K
Comments 0