company_banner

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля

    Анонсируем первый в России практический курс по SRE: Слёрм SRE.


    На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.



    Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.


    Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.


    Ведут программу сотрудники Booking.com и Google.
    В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.


    Подробности под катом


    Спикеры


    Иван Круглов
    Principal Developer в Booking.com (Нидерланды)
    С момента прихода в Booking.com в 2013 работал над такими инфраструктурными проектами, как распределенная доставка и обработка сообщений, BigData и web-stack, поиск.
    Сейчас занимается вопросами построения внутреннего облака и Service Mesh.


    Бен Тайлер
    Principal Developer в Booking.com (США)
    Занимается внутренней разработкой платформы Booking.com.
    Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
    Говорит и преподает на русском.


    Евгений Варавва
    Разработчик широкого профиля в Google (Сан-Франциско).
    Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
    С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.


    Эдуард Медведев
    CTO в Tungsten Labs (Германия)
    Работал инженером в StackStorm, отвечал за ChatOps-функционал платформы. Разрабатывал и внедрял ChatOps при автоматизации дата-центров. Спикер на российских и международных конференциях.


    Программа


    Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.


    Тема №1: Основные принципы и методы SRE


    • Что нужно чтобы стать SRE?
    • DevOps vs SRE
    • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
    • SLI, SLO и SLA
    • Error budget и его роль в SRE

    Тема №2: Дизайн распределенных систем


    • Архитектура и функционал приложения
    • Non-Abstract Large System Design
    • Operability / Design for failure
    • gRPC или REST
    • Версионирование и обратная совместимость

    Тема №3: Как принимают проект SRE


    • Лучшие практики от SRE
    • Чек-лист приема проекта
    • Логирование, метрики, трейсинг
    • Забираем CI/CD в свои руки

    Тема №4: Проектирование и запуск распределенной системы


    • Обратное проектирование — как работает система?
    • Согласовываем SLI и SLO
    • Практика capacity planning
    • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
    • Запускаем Prometheus, Grafana, Elastic

    Тема №5: Monitoring, Observability and Alerting


    • Monitoring vs. Observability
    • Настраиваем мониторинг и алертинг с Prometheus
    • Практический мониторинг SLI и SLO
    • Symptoms vs. Causes
    • Black-Box vs. White-Box Monitoring
    • Распределенный мониторинг доступности приложений и серверов
    • 4 золотых сигнала (обнаружение аномалий)

    Тема №6: Практика тестирования надежности систем


    • Работа под давлением
    • Failure-injection
    • Chaos Monkey

    Тема №7: Практика incident response


    • Алгоритм управления стрессом
    • Взаимодействие между участниками инцидента
    • Постмортем
    • Knowledge sharing
    • Формирование культуры
    • Контроль неисправностей
    • Проведение blameless разбора полетов

    Тема №8: Практика управления нагрузкой


    • Балансировка нагрузки
    • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
    • DDoS (создаем нагрузку) + Cascading Failures

    Тема №9: Реагирование на инциденты


    • Разбор полетов
    • Практика On-Call
    • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
    • Протоколы управления инцидентами

    Тема №10: Диагностика и решение проблем


    • Журналирование
    • Отладка
    • Практика анализа и отладки на нашем приложении

    Тема №11: Тестирование надежности систем


    • Нагрузочное тестирование
    • Тестирование конфигураций
    • Тестирование производительности
    • Canary release

    Тема №12: Самостоятельная работа и ревью


    Рекомендации и требования к участникам


    SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.


    Цена курса — 60 000 ₽ с человека.
    Если компания отправляет группу из 5+ человек — 40 000 ₽.


    Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (онлайн или интенсив 18-20 ноября).
    Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.


    Регистрация


    Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.

    Southbridge
    593,19
    Обеспечиваем стабильную работу highload-проектов
    Поделиться публикацией

    Комментарии 4

      +1
      Добрый день.
      Скажите пожалуйста, тестовый проект курса (сайт-агрегатор) будет изначально спроектирован под кубернетес?
      Насколько материал курса будет завязан на использование конкретных версий api кубернетеса?
        +1
        Да, тестовый проект изначально спроектирован под кубернетес.
        На версии api материал не завязан, зависимостей не будет.
          0
          Спасибо за ответ.
        +3
        Это первый в нашей истории курс, где мы отходим от правила «только инструменты, никакой философии». Потому что SRE начинается с вопроса: что и как оптимизировать.

        Иван Круглов, когда читал блок по SRE на Слёрме DevOps, сказал отличную фразу: «SRE — это про счастье пользователей». Значит, нужно сперва разобраться, в чем заключается это счастье. :)

        Поэтому состав будет примерно такой: 20% размышлений и формулировок, 80% инструментов и практики.

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое