Привет! Меня зовут Сергей Реусин и последние пять лет я занимаюсь эксплуатацией production-систем с непрерывной практикой инцидент-менеджмента. Каждый день, сталкиваясь с аномалиями и проблемами, невольно спрашиваешь себя: «Почему это происходит? А главное — как с этим дальше жить?». Три нелегких года работы в Купере ( ex СберМаркет), где мне доверили строить культуру инцидент-менеджмента, помогли мне утвердиться во мнении и подходах, которые действительно помогают справляться с подобными вызовами. О них и поговорим!
Чтобы сложить цельную картину о создании устойчивых систем и организации, мы пройдем по шагам:
1. Определим, ради чего вся эта «доступность» и «стабильность» нужна
2. Попробуем устаканить терминологию, чтобы говорить на одном языке
3. Посмотрим на понятие системы с позиции устойчивости
4. Обратимся к историческому опыту
5. Изучим возможные паттерны отказов систем и способы их митигации
6. Визуализируем модель восприятия аномалий
7. Познакомимся с ключевыми личностями в подходах Resilience Engineering