Надёжность IT-инфраструктуры зависит от множества факторов. Чем развесистей инфра, тем больше узких мест и тайных углов, откуда неожиданно ночью может прилететь алерт. Важно чтобы ваши специалисты в этой ситуации не только знали систему как свои пять пальцев, но и умели работать команде и извлекать из каждого инцидента полезный опыт.
Присмотритесь к SRE-практикам. Они помогают повысить надёжность, когда стоимость минуты простоя сервиса уже очень высока.

3 октября мы запускаем новый поток курса SRE: data-driven подход к управлению надежностью систем. На нём можно научиться работать с метриками, организовывать работу SRE-команд.
На курсе вы:
? Научитесь внедрять правки прямо в прод;
? Узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
? Поймёте, какие метрики собирать и как это делать правильно;
? Научитесь быстро поднимать продакшн силами команды;
? Узнаете, как снизить ущерб от отказов в будущем.
Мы разработали программу курса совместно с SRE-инженерами из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.
Новая культура производства приведет к следующим изменениям:
? Снизится процент отказа сервиса;
? Повысится скорость реагирования ни сбои;
? Будет меньше рисков при выкатке новых фич;
? Увеличится скорость разработки.
SRE решает похожие проблемы, что и DevOps. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».
Старт потока: 3 октября.
Посмотрите подробную программу на нашем сайте.