Pull to refresh
19
0
Матвей Кукуй @Matvey-Kuk

Пользователь

Send message

А еще, у нас есть русскоязычное коммьюнити, присоединяйтесь: https://t.me/amixr_ru

Я снимаю шляпу перед усилиями, которые вы провернули вокруг OnCall, и не могу не позвать коммитить изменения в апстрим :)

Например, недавно у нас появился достаточно качественный интерфейс для написания собственных звонилок и комьюнити сразу же привинтило к нему znonok: https://github.com/grafana/oncall/pull/2137/files, контрибьютор астериска уже переписывает свой PR на новый интерфейс и, будем надеется, увидим его в апстриме: https://github.com/grafana/oncall/pull/1282

В общем, у нас нет никакого хитрого замысла заставить всех платить Twilio или пользоваться именно нашим мобильным приложением, которое шлет пуши через наш клауд (какой-то облачный сервис для этого нужен, мы запилили свой). Контрибьютеры позитивно относятся к расширению функционала в ту сторону, которая обеспечит вам большую независимость.

Отличная статья! Спасибо за такое подробное описание всей связки!

Несколько добавлений:

Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим

Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.

Чего?

Graceful Degradation, Rate Limiting

так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?

Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.

И все это в контейнере. то есть с сетью придется отдельно воевать.

В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.

Очень круто! Молодцы и Флант и Okmeter!

Можно отправлять в amixr.io, он сгруппирует все одинаковые сообщения из SQS и даст даже сделать кастомный рендеринг в слаке.
Готовьтесь к вопросам по Python, я подготовлюсь к ответам на Go :)
На собеседование с кандидатом, к сожалению, нельзя. Мы собеседуем 1-1, чтобы не пугать и не нервировать. Но созвониться, конечно, можем — расскажу и покажу наш флоу, matvey@amixr.io
Около 70. Это 2-3 в день по 45 минут. А Вы?
Последнее, что нужно делать на собеседовании — превращать его в экзамен и ддосить по опроснику. Так вы отлично выясните, что кандидат не знает, а вам нужно выяснить то, что он знает.

Спрашиваете про прометеус? А может быть, он знает TICK стек. Или работал со спланком. Или у него на предыдущем проекте было хитрое ТЗ, но он виртуозно кладет метрики по UDP? Ничего из этого вы не узнаете. Вы ткнете своим очень узким вопросом и скажете «ок, хорошо». Или «нус, как такого можно не знать сеньору, давайте дальше». Максимум, что вы проверите — умеет ли человек в: «фак, я не знаю, но ладно, порассуждаем». Большинство же кандидатов такой вопрос переведет в состояние: «блин, интервью провалено, интересно, долго ли еще мучиться». Проиграете здесь вы.

Что делать?

Можно провести глубокое техническое интервью открытыми и уточняющими вопросами, совместно работая над задачей, похожей на ту, что кандидат умеет решать, а еще лучше — на знакомой кодбазе (опенсорс или тестовое). Так он почувствует, что у него «пошло» и покажет сильные стороны.

Очень не советую «тащить список вопросов себе», если вы хотите нанимать. Уверен, это просто быстрый способ ЧСВшнуть и оскорбиться «ужасным состоянием рынка».
Очень осторожно с «заменой PyCharm». Автодополнение, рефакторинг, навигация по коду, адаптированность для Django сильно уступают и падает производительность.
Мы сделали проект мультиклаудным почти сразу и скорее ради шутки. Потом один из провайдеров положил регион на 7 часов. Поняли, что не зря шутили.
Symptom-based — может вызвать недопонимание и привести к алертам по нарушению SLA, а не SLI. Опасно) Вообще тема исчерпывающе описана в SRE.

Кстати относительно картинки «Вижу алерт — завожу инцидент» — в amixr.io подвезли кнопочки прямо под алерт в слаке, которые можно сконфигурировать на вебхук и вешать таски:
вот как это выглядит
image
Поддерживал PagerDuty, потом мигрировал на VictorOps. Отдельно интегрировал в тестовом режиме OpsGeany. В среднем, функционал одинаковый. У всех трех проблема — интерфейс.

Когда начали вводить разработчиков в On-Call ротацию, это стало реальной болью. Я каждые несколько дней заново объяснял дежурным простейшие операции в VictorOps.

Сейчас веду интеграцию amixr.io в несколько компаний уже со стороны вендора. Он простой как пробка, так что пока таких проблем не наблюдаем :)

По цифрам хорошая идея. Быстрым набегом на базу, видно улучшение времени реакции после введения эскалаций и расписаний. Нужно обстоятельно сесть и выгрузить в отчетик…
Уже традиционно оставлю комментарий, что эффективность реакции на инцидент сильно зависит от конкретного инцидент менеджера — тулы, которая рассылает алерты по дежурным, шлет СМСки, звонит, эскалирует если кто-то проспал. Для тех, у кого нет «Котана», есть целый набор готовых штук:
PagerDuty
OpsGeany
VictorOps
И мой любимый, работающий прямо в Slack https://amixr.io (Предвзятое мнение)
Оповещения настроены

И эскалации, чтобы никто не проспал оповещения. Для этого нужен Incident Management, например:
www.pagerduty.com
victorops.com
www.opsgenie.com
amixr.io (Да, я советую свой сервис, но он правда хороший)
Иван, у меня для вас плохие новости. Сходите ради интереса на собеседование в другую компанию ;)

Information

Rating
Does not participate
Location
San Francisco, California, США
Registered
Activity