Как стать автором
Обновить
70.69
Слёрм
Учебный центр для тех, кто работает в IT

Старт курса SRE: База — возьмите систему под контроль

Время на прочтение 3 мин
Количество просмотров 308

28 февраля стартует новый поток обновленного курса «Site Reliability Engineering: data-driven подход к управлению надежности систем». Будем учиться три недели, за которые вы разберете современные практики SRE и инструменты для повышения доступности и надежности ваших IT-систем, включая мониторинг, автоматизацию, оптимизацию процессов и управление инцидентами.

Чтобы после курса вы смогли применить знания на реальных проектах, мы выстроили обучение вокруг специально разработанного приложения по продаже билетов для кинотеатров. На нем вы будете решать реальные задачи связанные с надежностью. В общей сложности вы проведете в роли SRE-инженера более 24 часов.

Как проходит практика

Наше приложение состоит из нескольких микросервисов. Оно агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты. Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру, инфраструктуру, настроим мониторинг и алертинг.

Вам или вашей команде предстоит разобраться с несколькими кейсами. Например, произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки? Нужно организовать работу группы по ликвидации аварии и научиться применять подходы к сайту с точки зрения SRE.

Формат предполагает разделение на команды, разбор интересных кейсов и обмен опытом между участниками и спикерами. На курсе будет фасилитатор, который наладит внутренние процессы в команде, распределит роли между участниками и поможет эффективно решать проблемы в режиме реального времени. 

На курсе вы

  • узнаете, как снизить ущерб от отказов в будущем;

  • внедрите правки прямо в прод;

  • узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;

  • поймете, какие метрики собирать и как это делать правильно;

  • научитесь быстро поднимать продакшн силами команды.

Помимо того, что учиться будет интересно, благодаря новым знаниям и практике вы сможете настроить:

  • мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Поймете как эти метрики выбрать;

  • мониторинг SRE-инфраструктурных сервисов. Сможете опознавать и решать проблемы с инфраструктурой;

  • alerting и healthcheck;

  • разные методы деплоймента и будете знать, какие инструменты для этого существуют.

  • пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером.

  • надежные коммуникации между сервисами retry, timeout, circuit breaker.

Курс хорошо подходит как для только думающих внедрять в компании практики SRE, так и для сформировавшихся команд, которые хотят опробовать новые практики, улучшить имеющиеся и обменяться опытом с коллегами.

Почему наш курс?

Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам. С каждым практикумом программа дорабатывалась. Сейчас она не имеет аналогов на российском рынке за счет большого количества практики, экспертности спикеров и возможности внедрить инструменты SRE сразу в продакшн.

Вас ждут теория и AMA-cессии в течении недели,  а также субботние 4-часовые практики, чтобы спокойно погрузиться в профессию и потрогать инструменты.

Для команд от 5 человек у нас хорошие скидки, а для тех, кто оплачивает не от компании —рассрочка, и возможность вернуть 13% 

Количество мест ограниченно. Подать заявку и узнать подробности.

Теги:
Хабы:
+7
Комментарии 0
Комментарии Комментировать

Другие новости

Информация

Сайт
slurm.io
Дата регистрации
Дата основания
Численность
51–100 человек
Местоположение
Россия
Представитель
Антон Скобин