Собрали для вас самые полезные статьи по Site Reliability Engineering. В материалах ниже вы найдете полезные кейсы, информацию о внедрении SRE и применении отдельных практик ⤵️
1️⃣ Error Budget, SLO и мониторинг: советы для начинающих SRE-инженеров
Книга Google о SRE, статьи экспертов, документация и обучающие курсы дают исчерпывающие знания о том, как в идеале должен работать SRE в компаниях. Правда, ключевое здесь – «в идеале». В этой статье мы поговорим о выстраивании рабочего процесса на старте, когда вам нужно выставить первый SLO, рассчитать error budget и мирно обо всем договориться с командой разработки и бизнесом.
2️⃣ Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры
Установка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE. По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым. Когда мы определим эти показатели и установим SLO, нужно проверить их реалистичность с учетом архитектуры приложения и рабочих практик. Мы точно сможем их достичь? На что, скорее всего, уйдёт наш бюджет на ошибки?
3️⃣ Пять инструментов Site Reliability Engineering
Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться. В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем.
4️⃣ «Цель SRE — надёжная система». Обзор основных метрик SRE
Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году. В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.
5️⃣ Как строить надежные, стабильные и отказоустойчивые IT-системы: главное об SRE и SLO
К современным IT-системам предъявляются очень жесткие требования — они должны быть доступны практически 24/7, чтобы выдерживать конкуренцию на рынке. Для обеспечения такой надежности и доступности существует особый подход — SRE, Site Reliability Engineering. В статье рассказываем, что такое подход SRE, зачем он нужен, какие критерии надежности существуют и как их определять.
6️⃣ Как мониторить золотые сигналы SRE
Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. В статье разбираются сами сигналы, подход к их использованию в мониторинге и руководства по мониторингу сигналов в конкретных сервисах.
7️⃣ 4 важных отличия DevOps от SRE
Если вы знаете, что такое Site Reliability Engineering, вам может быть интересно, как эти практики связаны с DevOps. Важно сразу оговориться, что мы не ставим между ними слово «против». Хотя у этих подходов есть некоторые отличия в том, как лучше делать и быстрее доставлять программное обеспечение. В этой статье разберём каждый подход и выясним, чем отличаются DevOps и SRE.
8️⃣ SRE: Распределённая и централизованная модели управления инцидентами
Внедрение SRE-практик в компаниях может происходить по-разному. Где-то решение об этом принимает менеджмент, где-то это может быть инициатива снизу. В любом случае может встать вопрос: как организовать реагирование на инциденты и кто будет брать на себя лидерство в командах во время инцидента Перевели статью о двух моделях структуры для команд управления инцидентами — распределенной и централизованной. В ней рассматриваются плюсы и минусы каждой из моделей, а также примеры того, как каждая из них выглядит.
9️⃣ Как реализован SRE подход в Power BI
Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.
? Читать статью
Дайджест подготовлен в рамках продвижения курса «SRE: data- driven подход к управлению надежностью систем».