Мы запускаем практический учебный курс для будущих системных администраторов Linux, инженеров доступности сервисов (SRE). Это будет квест, во время которого вы получите хорошую базовую подготовку, а также сможете проверить себя в условиях, максимально приближенных к реальным.
16 апреля, в 19 часов (MSK) состоится онлайн-встреча сообщества DevOps-40: HR Talks

Друзья, добро пожаловать на сессию бесед с HR-partner, работающими со специалистами по SRE и DevOps. Разговор про рынки вакансий, про изменение условий работы в связи с карантином. Анастасия и Анжелика готовы ответить на любые вопросы, а так же дать советы, касающиеся поиска работы, прохождения интервью в русских и зарубежных кампаниях.
Вы можете задать DevOps-HR интересующие вас вопросы прямо сейчас в нашем телеграм чате в devops40discuss, указывайте к вопросам хэштег #вопросhr и подключайтесь к трансляции в www.twitch.tv/devops40
Вебинар: Как организовать DevOps/SRE команду, избежать выгорания и управлять инцидентами при помощи Amixr

За последний год Amixr провели несколько десятков интервью со своими пользователями и дежурными инженерами из таких компаний, как Google, Facebook, Dropbox, SoundCloud, чтобы получить инсайты о том, что же такое эффективный инцидент-менеджмент. Кроме того, через инфраструктуру Amixr проходят более трехсот тысяч инцидентов ежемесячно.
Всю эту информацию и собственный опыт Amixr и Proto собрали в едином вебинаре в эту среду, 09 декабря в 16:00. Для участия достаточно пройти быструю регистрацию.
Интенсив по SRE 21–23 мая в Москве
Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.
Формат интенсива: офлайн или онлайн на выбор.
Три вебинара по SRE в ноябре. Об организации команд, внедрении и отечественных кейсах

Расслабиться в ноябре не получится, команда Слёрм только разогрелась и продолжает готовить новые вебинары. В ноябре нас ждёт целая серия вебинаров по SRE. Хотим рассказать с точки зрения организации команд, процессов и внедрения SRE в компании. Как это бывает на деле.
12 ноября 17:00, «Путь в SRE» c Артёмом Артемьевым, Lead SRE в Tango me.
17 ноября 17:00, «Особенности SRE в России» с Дмитрием Масленниковым, руководителем центра надежности информационных систем Тинькофф.
27 ноября 13:00, Открытый урок с Иваном Кругловым, Staff Software Engineer в Databricks.
SRE-инженеры, добро пожаловать

Приветствуем SRE-инженеров!
Приходите познакомиться с Техническим департаментом VK и получите оффер в нашу команду всего за одни выходные! Это экспресс-знакомство с большими перспективами: мы расскажем о наших нагрузках, технологиях и масштабах, а вы — о своём опыте работы. Если мы найдём много общего, то сразу пригласим вас к себе.
IT-шоу «Интуиция»: кто тут девопс, а кто SRE?

Приглашаем на онлайн-встречу «Интуиция», будем вместе со спикерами Слёрма отгадывать, кто из незнакомцев девопс, а кто SRE. В шоу участвуют шесть таинственных незнакомцев и незнакомок. Трое из них работают на позиции девопс-инженеров, а другие трое — SRE, все участники из разных компаний. Спикеры Слёрма должны будут с помощью подсказок угадать, кто есть кто. Зрители тоже будут угадывать и получать призы.
SRE как профессиональный рост для специалиста и прорыв для компании, бесплатный вебинар

9 июня 2022 в 19.00 (мск) пройдет открытый диалог в рамках пятого интенсива по SRE.
Расскажем про SRE по-честному:
— Что такое SRE и с чем его едят, в чем ценность.
— Нужны ли эти внедрения вам и вашей компании, каких результатов можно достичь, а каких - нет.
— Поговорим про опыт внедрения SRE в компаниях участников прошлых интенсивов, обсудим показатели.
— Ответим на ваши вопросы и разыграем 5 бесплатных мест на интенсив.
Как мы делаем интенсив по SRE для ИТ-специалистов

SRE — это особый подход к работе, который позволяет строить максимально надежные и стабильные информационные системы. Его суть — в совместной работе команды, особых подходах к повышению надежности и быстрой реакции на системные ошибки.
Меня зовут Стас, я продюссер курсов в Слёрме. Я начинал работу именно на интенсиве по SRE — сначала как фасилитатор, потом как менеджер, сейчас — просто как ведущий. Хочу рассказать, как мы делаем этот курс, с какими трудностями сталкивались.
SRE: data-driven подход к управлению надёжностью систем, анонс интенсива

Уже 17-19 июня пройдет пятый онлайн-интенсив SRE: data-driven подход к управлению надёжностью систем.
В этой статье расскажем что и как будет, зачем это нужно компаниям, каких результатов можно добиться, а также расскажем как принять участие бесплатно.
Сотрудник Google уволен за нарушение приватности

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.
27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.
Почему мы уверены в том, что развернули

Часто бывает, когда что-то не работает. И никто не хочет, чтобы что-то не работало по его вине. В контексте больших инфраструктур и распределенных приложений ошибка конфигурации может быть фатальной.
В статье я покажу как правильно тестировать окружение для приложения, какие инструменты использовать, приведу примеры удачного и целесообразного тестирования.
Статья будет интересна командам, которые практикуют DevOps или SRE, ответственным Dev, и прочим хорошим людям.
7 привычек успешных Site Reliability Engineers (по версии New Relic)

В недавней публикации мы рассмотрели восхождение Site Reliability Engineer в современных организациях, занимающихся программным обеспечением. Но называться SRE — одно дело, а нам же хотелось бы ещё узнать, что требуется для того, чтобы преуспеть в этой должности.
Что мы читали в марте: пять необходимых книг для инженеров инфраструктуры

Мы в Skyeng понемногу строим свою библиотеку важных и полезных книг. Началось все с того, что своими списками в Фейсбуке поделились основатели компании (ссылки ниже), а теперь к ним присоединились и руководители направлений. В марте свой топ профессиональной литературы представила Надежда Рябцова, отвечающая за нашу IT инфраструктуру. Я попросил ее рассказать о каждой книге чуть подробнее – надеюсь, читателям Хабры этот список, дополненный четырьмя еженедельными рассылками, будет полезен.
Надёжность World of Tanks Server
Сегодняшняя тема — надежность World of Tanks Server — достаточно скользкая. Надежность игры — это trade off, потому в разработке игр все нужно делать быстро и быстро изменяться. Нагрузка на серверы большая, а пользователи склонны что-нибудь поломать просто из интереса. Левон Авакян на РИТ++ рассказал, что в Wargaming делают для обеспечения надежности.
Обычно, когда говорят про надежность, все время упоминают мониторинги, нагрузочное тестирование и прочее. В этом нет ничего сверхъестественного, а доклад был посвящен моментам специфичным именно для Танков.

О спикере: Левон Авакян работает в компании Wargaming в должности Head of WoT Game Services and Reliability и занимается проблемами надежности танкового сервера.
Google и DevOps: две книги про SRE
В итоге мне стало интересно, как выглядит всё это SRE изнутри, и я подался в Mission Control – программу ротации, позволяющую провести полгода в роли SRE, получить ценного production-опыта и, при желании, вернуться в свою прежнюю команду делиться приобретёнными знаниями. Я вместо этого остался, как и две трети моих нынешних коллег по Video Processing SRE, тоже переквалифицировавшихся из обычных инженеров. Теперь я сам пугаю SWE непонятными графиками и эвакуирую ютьюбные видео из горящих датацентров, с перерывами на мирный созидательный кодинг. Оказалось, что за пятнадцать лет внутри Гугла выросла здоровая и эффективная SRE-организация со своими практиками, принципами и методами – но о них никто не знает, потому что из тех кто попадал туда, еще никто не возвращался назад.
Почему важна SRE документация. Ч. 1
Интенсивность запусков у нас меняется от месяца к месяцу. Не успели сентябрьские студенты закончить второй месяц курса «Devops — практики и инструменты», как у нас открывается следующий поток. Так что мы снова готовы делиться с вами полезными материалами по теме и ждём на не менее полезных открытых уроках.
Сегодня мы рассмотрим первую часть статьи о том как документация позволяет SRE-командам управлять новыми и существующими сервисами.
SRE (site reliability engineering, примерно переводится как “обеспечение надежности информационных систем”, специалисты этой сферы носят ту же аббревиатуру) — особая дисциплина, мышление и набор технических подходов, направленных на обеспечение безотказной работы веб-продуктов и сервисов. SRE находятся на стыке разработки ПО и системной инженерии, решают эксплуатационные задачи и разрабатывают масштабируемые, надежные и эффективные решения для проектирования, создания и эксплуатации крупномасштабных распределенных систем.
Основные задачи SRE:

Почему важна SRE документация. Ч. 2
Вот и осталось всего ничего (то есть один день) до запуска потока курса «DevOps практики и инструменты», а значит нам надо успеть за это время довыложить оставшиеся части статьи «Почему важна SRE документация».
Продолжаем.
Документы для Онбординга Нового Сервиса
SRE проводят PRR (production readiness review, обзор готовности производства) для проверки соответствия сервиса стандартам операционной готовности, а также чтобы убедиться, что владельцы сервиса понимают, как пользоваться знаниями SRE для управления большими системами.
Сервису необходимо пройти эту проверку до запуска в продакшн. (До запуска его поддерживают не SRE, а сама команда разработки.) Цель PRR на данном этапе — убедиться, что сервис будет удовлетворять минимальным стандартам надежности на момент запуска.

Несем DevOps в массы
Что ж, не будем останавливаться на достигнутом — продолжим продвижение подхода интеграции процессов разработки, тестирования и эксплуатации уже в мае на РИТ++.
Поскольку DevOps в нашем понимании — это про объединение всех процессов разработки, то фестиваль конференций РИТ++, в котором участвуют и серверные и клиентские разработчики, и управленцы разных уровней, люди, выстраивающие бизнес-процессы, и многие другие специалисты IT, — самое место, чтобы говорить о DevOps.
«Надежность и безотказность как в Google» — и не только: перевод статьи «Расчёт надёжности сервиса»

Главная задача коммерческих (да и некоммерческих тоже) сервисов — быть всегда доступными для пользователя. Хотя сбои случаются у всех, вопрос в том, что делает IT-команда для их минимизации. Мы перевели статью Бена Трейнора, Майка Далина, Вивек Рау и Бетси Бейер «Расчёт надёжности сервиса», в которой рассказывается, в том числе, на примере Google, почему 100% — неверный ориентир для показателя надежности, что такое «правило четырёх девяток» и как на практике математически прогнозировать допустимость крупных и мелких отключений сервиса и\или его критических компонентов — ожидаемое количество простоя, время обнаружения сбоя и время восстановления сервиса.