Как стать автором
Обновить

Детектирование и оценка сбоев

Время на прочтение11 мин
Количество просмотров4.9K
Всего голосов 12: ↑12 и ↓0+12
Комментарии5

Комментарии 5

Рассказали обо всем кроме самой информации об автоматизации. Как оно работает? Какие инструменты используются? Кто решает, стала ли проблема блокером или можно продолжать спать?

Смотрю на наши проблемы в продакшене, и они настолько разные, что человеку тяжело понять что вообще пострадало в результате, и что теперь делать.

Уже готовлю доклад про то, как внутри работает наша автоматизация.

Отвечу на вопросы:
1. Какие инструменты используются?
инструменты мониторинга (Graphite + Grafana, Prometheus), плюс интеграции с k8s и разными внутренними инструментами (трейсингом, сервисов дежурств и прочими прелестями) остальное всёсамописное

  1. Кто решает, стала ли проблема блокером или можно продолжать спать? - есть конмада 24/7, которая смотрит за работой наших продуктов. Автоматизацию сейчас больше нацелена на постфактумный сбор инормации, это не система алертинга, а система анализа. Однако надо признать, что мы ее уже начали использовать и в целях "более рантаймовой" детекции инцидентов.

  2. "Смотрю на наши проблемы в продакшене, и они настолько разные, что человеку тяжело понять что вообще пострадало в результате, и что теперь делать." - именно поэтому мы и сделали автоматизацию, руками собирать информацию, ходить по людям, отвлекать их от дел чтобы собрать достойный инцидент - было хлопотно, поэтому навалились на автоматизацизацию... на как навалились, запустили пилот, а потом пошло поехало.

Можно ли на основании трудного опыта придумать более устойчивую к отказам архитектуру ПО и, вообще, более эффективную в плане восстановлания.

Можно конечно и многое уже сделано или делается. Могу дать наводки на правильные инженерные практики:

  1. graceful degradation

  2. circuit breaker

  3. throttling

  4. MTTR

  5. MTBF

  6. Stress testing

  7. Stability testing

Я тут не особо силен, но думаю это уже поможет

Посмотрю на досуге. Спасибо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий