Liloon21 21 сен 2023 в 18:49

Старт нового потока по SRE — 3 октября

1 мин

613

Надёжность IT-инфраструктуры зависит от множества факторов. Чем развесистей инфра, тем больше узких мест и тайных углов, откуда неожиданно ночью может прилететь алерт. Важно чтобы ваши специалисты в этой ситуации не только знали систему как свои пять пальцев, но и умели работать команде и извлекать из каждого инцидента полезный опыт.

Присмотритесь к SRE-практикам. Они помогают повысить надёжность, когда стоимость минуты простоя сервиса уже очень высока.

3 октября мы запускаем новый поток курса SRE: data-driven подход к управлению надежностью систем. На нём можно научиться работать с метриками, организовывать работу SRE-команд.

На курсе вы:

? Научитесь внедрять правки прямо в прод;
? Узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
? Поймёте, какие метрики собирать и как это делать правильно;
? Научитесь быстро поднимать продакшн силами команды;
? Узнаете, как снизить ущерб от отказов в будущем.

Мы разработали программу курса совместно с SRE-инженерами из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.

Новая культура производства приведет к следующим изменениям:

? Снизится процент отказа сервиса;
? Повысится скорость реагирования ни сбои;
? Будет меньше рисков при выкатке новых фич;
? Увеличится скорость разработки.

SRE решает похожие проблемы, что и DevOps. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

Старт потока: 3 октября.

Посмотрите подробную программу на нашем сайте.

Теги:

Хабы:

Блог компании Слёрм

Старт нового потока по SRE — 3 октября

Другие новости

Информация

Истории