Комментарии 5
Рассказали обо всем кроме самой информации об автоматизации. Как оно работает? Какие инструменты используются? Кто решает, стала ли проблема блокером или можно продолжать спать?
Смотрю на наши проблемы в продакшене, и они настолько разные, что человеку тяжело понять что вообще пострадало в результате, и что теперь делать.
Уже готовлю доклад про то, как внутри работает наша автоматизация.
Отвечу на вопросы:
1. Какие инструменты используются?
инструменты мониторинга (Graphite + Grafana, Prometheus), плюс интеграции с k8s и разными внутренними инструментами (трейсингом, сервисов дежурств и прочими прелестями) остальное всёсамописное
Кто решает, стала ли проблема блокером или можно продолжать спать? - есть конмада 24/7, которая смотрит за работой наших продуктов. Автоматизацию сейчас больше нацелена на постфактумный сбор инормации, это не система алертинга, а система анализа. Однако надо признать, что мы ее уже начали использовать и в целях "более рантаймовой" детекции инцидентов.
"Смотрю на наши проблемы в продакшене, и они настолько разные, что человеку тяжело понять что вообще пострадало в результате, и что теперь делать." - именно поэтому мы и сделали автоматизацию, руками собирать информацию, ходить по людям, отвлекать их от дел чтобы собрать достойный инцидент - было хлопотно, поэтому навалились на автоматизацизацию... на как навалились, запустили пилот, а потом пошло поехало.
Можно ли на основании трудного опыта придумать более устойчивую к отказам архитектуру ПО и, вообще, более эффективную в плане восстановлания.
Детектирование и оценка сбоев