В общем, у нас нет никакого хитрого замысла заставить всех платить Twilio или пользоваться именно нашим мобильным приложением, которое шлет пуши через наш клауд (какой-то облачный сервис для этого нужен, мы запилили свой). Контрибьютеры позитивно относятся к расширению функционала в ту сторону, которая обеспечит вам большую независимость.
так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?
Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.
И все это в контейнере. то есть с сетью придется отдельно воевать.
В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.
На собеседование с кандидатом, к сожалению, нельзя. Мы собеседуем 1-1, чтобы не пугать и не нервировать. Но созвониться, конечно, можем — расскажу и покажу наш флоу, matvey@amixr.io
Последнее, что нужно делать на собеседовании — превращать его в экзамен и ддосить по опроснику. Так вы отлично выясните, что кандидат не знает, а вам нужно выяснить то, что он знает.
Спрашиваете про прометеус? А может быть, он знает TICK стек. Или работал со спланком. Или у него на предыдущем проекте было хитрое ТЗ, но он виртуозно кладет метрики по UDP? Ничего из этого вы не узнаете. Вы ткнете своим очень узким вопросом и скажете «ок, хорошо». Или «нус, как такого можно не знать сеньору, давайте дальше». Максимум, что вы проверите — умеет ли человек в: «фак, я не знаю, но ладно, порассуждаем». Большинство же кандидатов такой вопрос переведет в состояние: «блин, интервью провалено, интересно, долго ли еще мучиться». Проиграете здесь вы.
Что делать?
Можно провести глубокое техническое интервью открытыми и уточняющими вопросами, совместно работая над задачей, похожей на ту, что кандидат умеет решать, а еще лучше — на знакомой кодбазе (опенсорс или тестовое). Так он почувствует, что у него «пошло» и покажет сильные стороны.
Очень не советую «тащить список вопросов себе», если вы хотите нанимать. Уверен, это просто быстрый способ ЧСВшнуть и оскорбиться «ужасным состоянием рынка».
Очень осторожно с «заменой PyCharm». Автодополнение, рефакторинг, навигация по коду, адаптированность для Django сильно уступают и падает производительность.
Symptom-based — может вызвать недопонимание и привести к алертам по нарушению SLA, а не SLI. Опасно) Вообще тема исчерпывающе описана в SRE.
Кстати относительно картинки «Вижу алерт — завожу инцидент» — в amixr.io подвезли кнопочки прямо под алерт в слаке, которые можно сконфигурировать на вебхук и вешать таски:
Поддерживал PagerDuty, потом мигрировал на VictorOps. Отдельно интегрировал в тестовом режиме OpsGeany. В среднем, функционал одинаковый. У всех трех проблема — интерфейс.
Когда начали вводить разработчиков в On-Call ротацию, это стало реальной болью. Я каждые несколько дней заново объяснял дежурным простейшие операции в VictorOps.
Сейчас веду интеграцию amixr.io в несколько компаний уже со стороны вендора. Он простой как пробка, так что пока таких проблем не наблюдаем :)
По цифрам хорошая идея. Быстрым набегом на базу, видно улучшение времени реакции после введения эскалаций и расписаний. Нужно обстоятельно сесть и выгрузить в отчетик…
Уже традиционно оставлю комментарий, что эффективность реакции на инцидент сильно зависит от конкретного инцидент менеджера — тулы, которая рассылает алерты по дежурным, шлет СМСки, звонит, эскалирует если кто-то проспал. Для тех, у кого нет «Котана», есть целый набор готовых штук:
PagerDuty
OpsGeany
VictorOps
И мой любимый, работающий прямо в Slack https://amixr.io (Предвзятое мнение)
А еще, у нас есть русскоязычное коммьюнити, присоединяйтесь: https://t.me/amixr_ru
Я снимаю шляпу перед усилиями, которые вы провернули вокруг OnCall, и не могу не позвать коммитить изменения в апстрим :)
Например, недавно у нас появился достаточно качественный интерфейс для написания собственных звонилок и комьюнити сразу же привинтило к нему znonok: https://github.com/grafana/oncall/pull/2137/files, контрибьютор астериска уже переписывает свой PR на новый интерфейс и, будем надеется, увидим его в апстриме: https://github.com/grafana/oncall/pull/1282
В общем, у нас нет никакого хитрого замысла заставить всех платить Twilio или пользоваться именно нашим мобильным приложением, которое шлет пуши через наш клауд (какой-то облачный сервис для этого нужен, мы запилили свой). Контрибьютеры позитивно относятся к расширению функционала в ту сторону, которая обеспечит вам большую независимость.
Отличная статья! Спасибо за такое подробное описание всей связки!
Несколько добавлений:
В версии 1.1 появился полноценный редактор расписаний, можно даже без гугл календаря.
Можно конфигурировать кодом через терраформ: https://registry.terraform.io/providers/grafana/grafana/latest/docs/resources/oncall_escalation
У Grafana OnCall есть русскоязычный чатик: https://t.me/amixr_ru
Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим
Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.
Graceful Degradation, Rate Limiting
Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.
В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.
Очень круто! Молодцы и Флант и Okmeter!
Спрашиваете про прометеус? А может быть, он знает TICK стек. Или работал со спланком. Или у него на предыдущем проекте было хитрое ТЗ, но он виртуозно кладет метрики по UDP? Ничего из этого вы не узнаете. Вы ткнете своим очень узким вопросом и скажете «ок, хорошо». Или «нус, как такого можно не знать сеньору, давайте дальше». Максимум, что вы проверите — умеет ли человек в: «фак, я не знаю, но ладно, порассуждаем». Большинство же кандидатов такой вопрос переведет в состояние: «блин, интервью провалено, интересно, долго ли еще мучиться». Проиграете здесь вы.
Что делать?
Можно провести глубокое техническое интервью открытыми и уточняющими вопросами, совместно работая над задачей, похожей на ту, что кандидат умеет решать, а еще лучше — на знакомой кодбазе (опенсорс или тестовое). Так он почувствует, что у него «пошло» и покажет сильные стороны.
Очень не советую «тащить список вопросов себе», если вы хотите нанимать. Уверен, это просто быстрый способ ЧСВшнуть и оскорбиться «ужасным состоянием рынка».
Кстати относительно картинки «Вижу алерт — завожу инцидент» — в amixr.io подвезли кнопочки прямо под алерт в слаке, которые можно сконфигурировать на вебхук и вешать таски:
Когда начали вводить разработчиков в On-Call ротацию, это стало реальной болью. Я каждые несколько дней заново объяснял дежурным простейшие операции в VictorOps.
Сейчас веду интеграцию amixr.io в несколько компаний уже со стороны вендора. Он простой как пробка, так что пока таких проблем не наблюдаем :)
По цифрам хорошая идея. Быстрым набегом на базу, видно улучшение времени реакции после введения эскалаций и расписаний. Нужно обстоятельно сесть и выгрузить в отчетик…
PagerDuty
OpsGeany
VictorOps
И мой любимый, работающий прямо в Slack https://amixr.io (Предвзятое мнение)
И эскалации, чтобы никто не проспал оповещения. Для этого нужен Incident Management, например:
www.pagerduty.com
victorops.com
www.opsgenie.com
amixr.io (Да, я советую свой сервис, но он правда хороший)