Pull to refresh

Comments 6

В OnCall есть IaC: https://grafana.com/docs/grafana-cloud/developer-resources/infrastructure-as-code/terraform/terraform-oncall/

OnCall "тяжелый" и кто его только за это не ругал 🤦, но единственная причина, почему он состоит из зоопарка контейнеров — это надежность. OnCall умеет обрабатывать ситуации, когда twilio падает посреди эскалационной цепочки, и даже когда его собственные поды находятся в ресайкле. Все операции в онколле работают атомарно на очередях и если они прошли неуспешно, переходят в ретрай. Подглядите в исходный код приемки алерта OnCall, там сумасшедший механизм, который примет и запишет алерт даже, если большая часть инфраструктуры лежит.

Но вообще, очень круто! Люблю open source, который челленджит другой open source. Так держать.

Автор OnCall :)

Здравствуйте, Матвей, рад заочному знакомству! Спасибо что прокомментировали.

Сходил по ссылке. Я правильно понял из документации, что IaC работает только с облачной Grafana Cloud?

Все операции в онколле работают атомарно на очередях и если они прошли неуспешно, переходят в ретрай

У меня одна такая очередь перешла в ретрай и дёргала дежурного каждые 5 минут. Инцидент, по которому дёргало человека, в этот момент был уже закрыт. Поэтому единственное, что смог сделать, это удалить человека из канала, чтобы Slack просто не смог до него достучаться. В этом плане я, конечно, не согласен, что сложность = надёжность.

Забавно вышло с ретраями, логика там была следующая — "лучше ошибочно уведомить, чем ошибочно не уведомить".

Нет, терраформ должен работать и с OSS, это графановский маркетинг что-то начудил наверное.

Матвей, во-первых большое человеческое спасибо за on call (как и @DiTsiтолько пощупать ещё не успели).

во-вторых, есть ли у вас где-то опубликованные ощущения от вливания в Grafana Labs? Что понравилось в организации работы, что классного, какие вызовы? Ну кроме того, что все по кругу ноют о том, что у вас не один бинарник, а целых (о ужас) три докер контейнера!

«Тяжелый» — это всё таки эмоции, а не техника.

Вопрос наверное в том, что обычно если что-то весит не 5 мегабайт, а 5 гигабайт, то к этому автоматически добавляется огромная вариативность настройки, которая приводит к тому, что когда всё рассыпалось, оно не работает.

Sign up to leave a comment.

Articles