Comments 6
В OnCall есть IaC: https://grafana.com/docs/grafana-cloud/developer-resources/infrastructure-as-code/terraform/terraform-oncall/
OnCall "тяжелый" и кто его только за это не ругал 🤦, но единственная причина, почему он состоит из зоопарка контейнеров — это надежность. OnCall умеет обрабатывать ситуации, когда twilio падает посреди эскалационной цепочки, и даже когда его собственные поды находятся в ресайкле. Все операции в онколле работают атомарно на очередях и если они прошли неуспешно, переходят в ретрай. Подглядите в исходный код приемки алерта OnCall, там сумасшедший механизм, который примет и запишет алерт даже, если большая часть инфраструктуры лежит.
Но вообще, очень круто! Люблю open source, который челленджит другой open source. Так держать.
Автор OnCall :)
Здравствуйте, Матвей, рад заочному знакомству! Спасибо что прокомментировали.
Сходил по ссылке. Я правильно понял из документации, что IaC работает только с облачной Grafana Cloud?
![](https://habrastorage.org/getpro/habr/upload_files/f49/56b/e5c/f4956be5c0e668ad2ea363d395afc535.png)
Все операции в онколле работают атомарно на очередях и если они прошли неуспешно, переходят в ретрай
У меня одна такая очередь перешла в ретрай и дёргала дежурного каждые 5 минут. Инцидент, по которому дёргало человека, в этот момент был уже закрыт. Поэтому единственное, что смог сделать, это удалить человека из канала, чтобы Slack просто не смог до него достучаться. В этом плане я, конечно, не согласен, что сложность = надёжность.
Забавно вышло с ретраями, логика там была следующая — "лучше ошибочно уведомить, чем ошибочно не уведомить".
Нет, терраформ должен работать и с OSS, это графановский маркетинг что-то начудил наверное.
Матвей, во-первых большое человеческое спасибо за on call (как и @DiTsiтолько пощупать ещё не успели).
во-вторых, есть ли у вас где-то опубликованные ощущения от вливания в Grafana Labs? Что понравилось в организации работы, что классного, какие вызовы? Ну кроме того, что все по кругу ноют о том, что у вас не один бинарник, а целых (о ужас) три докер контейнера!
«Тяжелый» — это всё таки эмоции, а не техника.
Вопрос наверное в том, что обычно если что-то весит не 5 мегабайт, а 5 гигабайт, то к этому автоматически добавляется огромная вариативность настройки, которая приводит к тому, что когда всё рассыпалось, оно не работает.
IMPulse — наш взгляд на менеджмент инцидентов