Комментарии / Профиль Matvey-Kuk / Хабр

Матвей Кукуй@Matvey-Kuk

Пользователь

Подписчики

ПрофильСтатьи2ПостыНовостиКомментарии63

IMPulse — наш взгляд на менеджмент инцидентов

Matvey-Kuk 10 дек 2024 в 09:10

Нет, терраформ должен работать и с OSS, это графановский маркетинг что-то начудил наверное.

IMPulse — наш взгляд на менеджмент инцидентов

Matvey-Kuk 10 дек 2024 в 09:09

Забавно вышло с ретраями, логика там была следующая — "лучше ошибочно уведомить, чем ошибочно не уведомить".

IMPulse — наш взгляд на менеджмент инцидентов

Matvey-Kuk 10 дек 2024 в 06:54

В OnCall есть IaC: https://grafana.com/docs/grafana-cloud/developer-resources/infrastructure-as-code/terraform/terraform-oncall/

OnCall "тяжелый" и кто его только за это не ругал 🤦, но единственная причина, почему он состоит из зоопарка контейнеров — это надежность. OnCall умеет обрабатывать ситуации, когда twilio падает посреди эскалационной цепочки, и даже когда его собственные поды находятся в ресайкле. Все операции в онколле работают атомарно на очередях и если они прошли неуспешно, переходят в ретрай. Подглядите в исходный код приемки алерта OnCall, там сумасшедший механизм, который примет и запишет алерт даже, если большая часть инфраструктуры лежит.

Но вообще, очень круто! Люблю open source, который челленджит другой open source. Так держать.

Автор OnCall :)

Grafana OnCall — Open Source хаб для алертов и инцидентов

Matvey-Kuk 1 дек 2024 в 14:27

Спасибо! Я недавно вышел из проекта, но контрибьютеры его активно пилят и иногда помогают в чатике https://t.me/amixr_ru

Эмуляция Grafana OnCall Cloud

Matvey-Kuk 14 июн 2023 в 08:37

А еще, у нас есть русскоязычное коммьюнити, присоединяйтесь: https://t.me/amixr_ru

Эмуляция Grafana OnCall Cloud

Matvey-Kuk 14 июн 2023 в 06:27

Я снимаю шляпу перед усилиями, которые вы провернули вокруг OnCall, и не могу не позвать коммитить изменения в апстрим :)

Например, недавно у нас появился достаточно качественный интерфейс для написания собственных звонилок и комьюнити сразу же привинтило к нему znonok: https://github.com/grafana/oncall/pull/2137/files, контрибьютор астериска уже переписывает свой PR на новый интерфейс и, будем надеется, увидим его в апстриме: https://github.com/grafana/oncall/pull/1282

В общем, у нас нет никакого хитрого замысла заставить всех платить Twilio или пользоваться именно нашим мобильным приложением, которое шлет пуши через наш клауд (какой-то облачный сервис для этого нужен, мы запилили свой). Контрибьютеры позитивно относятся к расширению функционала в ту сторону, которая обеспечит вам большую независимость.

Grafana OnCall. Быстрое знакомство

Matvey-Kuk 21 ноя 2022 в 12:57

Отличная статья! Спасибо за такое подробное описание всей связки!

Несколько добавлений:

В версии 1.1 появился полноценный редактор расписаний, можно даже без гугл календаря.
Можно конфигурировать кодом через терраформ: https://registry.terraform.io/providers/grafana/grafana/latest/docs/resources/oncall_escalation
У Grafana OnCall есть русскоязычный чатик: https://t.me/amixr_ru

Grafana OnCall — Open Source хаб для алертов и инцидентов

Matvey-Kuk 18 сен 2022 в 19:21

Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим

Grafana OnCall — Open Source хаб для алертов и инцидентов

Matvey-Kuk 17 сен 2022 в 11:53

Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.

Grafana OnCall — Open Source хаб для алертов и инцидентов

Matvey-Kuk 17 сен 2022 в 11:15

Чего?

Graceful Degradation, Rate Limiting

так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?

Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.

И все это в контейнере. то есть с сетью придется отдельно воевать.

В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.

«Флант» покупает компанию Okmeter

Matvey-Kuk 14 мая 2021 в 19:52

Очень круто! Молодцы и Флант и Okmeter!

Коллеги, вы меня огорчаете

Matvey-Kuk 2 окт 2020 в 17:10

Готовьтесь к вопросам по Python, я подготовлюсь к ответам на Go :)

Коллеги, вы меня огорчаете

Matvey-Kuk 2 окт 2020 в 15:35

На собеседование с кандидатом, к сожалению, нельзя. Мы собеседуем 1-1, чтобы не пугать и не нервировать. Но созвониться, конечно, можем — расскажу и покажу наш флоу, matvey@amixr.io

Коллеги, вы меня огорчаете

Matvey-Kuk 2 окт 2020 в 14:56

Около 70. Это 2-3 в день по 45 минут. А Вы?

+11

Коллеги, вы меня огорчаете

Matvey-Kuk 2 окт 2020 в 14:31

Последнее, что нужно делать на собеседовании — превращать его в экзамен и ддосить по опроснику. Так вы отлично выясните, что кандидат не знает, а вам нужно выяснить то, что он знает.

Спрашиваете про прометеус? А может быть, он знает TICK стек. Или работал со спланком. Или у него на предыдущем проекте было хитрое ТЗ, но он виртуозно кладет метрики по UDP? Ничего из этого вы не узнаете. Вы ткнете своим очень узким вопросом и скажете «ок, хорошо». Или «нус, как такого можно не знать сеньору, давайте дальше». Максимум, что вы проверите — умеет ли человек в: «фак, я не знаю, но ладно, порассуждаем». Большинство же кандидатов такой вопрос переведет в состояние: «блин, интервью провалено, интересно, долго ли еще мучиться». Проиграете здесь вы.

Что делать?

Можно провести глубокое техническое интервью открытыми и уточняющими вопросами, совместно работая над задачей, похожей на ту, что кандидат умеет решать, а еще лучше — на знакомой кодбазе (опенсорс или тестовое). Так он почувствует, что у него «пошло» и покажет сильные стороны.

Очень не советую «тащить список вопросов себе», если вы хотите нанимать. Уверен, это просто быстрый способ ЧСВшнуть и оскорбиться «ужасным состоянием рынка».

+46

Python в Visual Studio Code — июньский релиз

Matvey-Kuk 2 июл 2019 в 00:18

Очень осторожно с «заменой PyCharm». Автодополнение, рефакторинг, навигация по коду, адаптированность для Django сильно уступают и падает производительность.

Shit happens. Яндекс удалил часть виртуальных машин в своем облаке

Matvey-Kuk 17 мая 2019 в 13:25

Мы сделали проект мультиклаудным почти сразу и скорее ради шутки. Потом один из провайдеров положил регион на 7 часов. Поняли, что не зря шутили.

Метод CASE: гуманный мониторинг

Matvey-Kuk 17 апр 2019 в 13:14

Symptom-based — может вызвать недопонимание и привести к алертам по нарушению SLA, а не SLI. Опасно) Вообще тема исчерпывающе описана в SRE.

Кстати относительно картинки «Вижу алерт — завожу инцидент» — в amixr.io подвезли кнопочки прямо под алерт в слаке, которые можно сконфигурировать на вебхук и вешать таски:

вот как это выглядит

Citymobil — пособие для стартапов по увеличению стабильности на фоне роста. Часть 2. Какие бывают виды аварий?

Matvey-Kuk 1 апр 2019 в 14:10

Поддерживал PagerDuty, потом мигрировал на VictorOps. Отдельно интегрировал в тестовом режиме OpsGeany. В среднем, функционал одинаковый. У всех трех проблема — интерфейс.

Когда начали вводить разработчиков в On-Call ротацию, это стало реальной болью. Я каждые несколько дней заново объяснял дежурным простейшие операции в VictorOps.

Сейчас веду интеграцию amixr.io в несколько компаний уже со стороны вендора. Он простой как пробка, так что пока таких проблем не наблюдаем :)

По цифрам хорошая идея. Быстрым набегом на базу, видно улучшение времени реакции после введения эскалаций и расписаний. Нужно обстоятельно сесть и выгрузить в отчетик…

Citymobil — пособие для стартапов по увеличению стабильности на фоне роста. Часть 2. Какие бывают виды аварий?

Matvey-Kuk 1 апр 2019 в 13:36

Уже традиционно оставлю комментарий, что эффективность реакции на инцидент сильно зависит от конкретного инцидент менеджера — тулы, которая рассылает алерты по дежурным, шлет СМСки, звонит, эскалирует если кто-то проспал. Для тех, у кого нет «Котана», есть целый набор готовых штук:
PagerDuty
OpsGeany
VictorOps
И мой любимый, работающий прямо в Slack https://amixr.io (Предвзятое мнение)

2 3 4