Как стать автором
Обновить

SRE как профессиональный рост для специалиста и прорыв для компании, бесплатный вебинар

Время на прочтение 1 мин
Количество просмотров 454
Блог компании Southbridge

9 июня 2022 в 19.00 (мск) пройдет открытый диалог в рамках пятого интенсива по SRE.

Расскажем про SRE по-честному:
— Что такое SRE и с чем его едят, в чем ценность.
— Нужны ли эти внедрения вам и вашей компании, каких результатов можно достичь, а каких - нет.
— Поговорим про опыт внедрения SRE в компаниях участников прошлых интенсивов, обсудим показатели.
— Ответим на ваши вопросы и разыграем 5 бесплатных мест на интенсив.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 2

Как мы делаем интенсив по SRE для ИТ-специалистов

Время на прочтение 4 мин
Количество просмотров 629
Блог компании Southbridge

SRE — это особый подход к работе, который позволяет строить максимально надежные и стабильные информационные системы. Его суть — в совместной работе команды, особых подходах к повышению надежности и быстрой реакции на системные ошибки.

Меня зовут Стас, я продюссер курсов в Слёрме. Я начинал работу именно на интенсиве по SRE — сначала как фасилитатор, потом как менеджер, сейчас — просто как ведущий. Хочу рассказать, как мы делаем этот курс, с какими трудностями сталкивались.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 1

Старт обновленного курса SRE: data-driven подход к управлению надёжностью систем

Время на прочтение 2 мин
Количество просмотров 157
Блог компании Southbridge

С 6 по 27 декабря пройдет первый поток курса SRE: data-driven подход к управлению надёжностью систем. Вместо трехдневного интенсива вас ждут полноценные три недели обучения по сниженной цене и с большим количеством практики. Курс составлен по принципу полного погружения в среду, чтобы студенты не просто изучали теорию и смотрели видеоуроки, а могли сами потрогать различные инструменты и поработать в команде.

Рассказываем, какие задачи вы научитесь решать, и как может улучшиться работа вашей системы после.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0

Вебинар о карьере SRE-инженера: с чего начать и как стать?

Время на прочтение 2 мин
Количество просмотров 339
Блог компании Southbridge

Какой нужен бэкграунд и можно ли стать SRE без опыта в IT? А если опыт есть, с чего лучше начать? Всех, кто хочет понять, подходит ли вам профессия SRE и как правильно в нее перейти из devops, разработки или системного администрирования, мы приглашаем на наш бесплатный вебинар «Карьера SRE-инженера» 9 февраля в 19.00 по мск.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Старт курса SRE: База — возьмите систему под контроль

Время на прочтение 3 мин
Количество просмотров 178
Блог компании Southbridge

28 февраля стартует новый поток обновленного курса «Site Reliability Engineering: data- подход к управлению надежности систем». Будем учиться три недели, за которые вы на практике разберете современные практики SRE и инструменты для повышения доступности и надежности ваших IT-систем, включая мониторинг, автоматизацию, оптимизацию процессов и управление инцидентами.

Чтобы после курса вы смогли применить знания на реальных проектах, мы выстроили обучение вокруг специально разработанного приложения по продаже билетов для кинотеатров. На нем вы будете решать реальные задачи связанные с надежностью. В общей сложности вы проведете в роли SRE-инженера более 24 часов.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Строим умную систему мониторинга с SRE: Observability

Время на прочтение 3 мин
Количество просмотров 406
Блог компании Southbridge

14 марта стартует курс «SRE: Observability» для всех, кто хочет научиться агрегировать SLO/SLI в одну или несколько высокоуровневых метрик. Рассказываем, почему observability – это то, с чего нужно начать в первую очередь, если ваша задача повысить надежность системы.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Чеклист зрелости культуры SRE

Время на прочтение 4 мин
Количество просмотров 579
Блог компании Southbridge

Все хотят приложения без даунтаймов и жалоб пользователей на постоянные простои, но не все понимают с чего начать и как подойти к вопросу системно. Обеспечить высокую доступность, надежность и производительность своих сервисов поможет культура SRE. Возможно, в вашей компании уже используются ее отдельные инструменты.

Мы приготовили для вас самотестирование. Пройдитесь хорошенько по всем пунктам, можете даже подключить к обсуждению коллег. По итогу определите, на каком уровне находится культура SRE в вашей компании, чего ей не хватает и нужно ли вам идти на обучение. 

Читать далее
Всего голосов 12: ↑10 и ↓2 +8
Комментарии 1

«SRE: Observability» — старт потока 30 марта

Время на прочтение 3 мин
Количество просмотров 129
Блог компании Southbridge

30 марта стартует курс «SRE: Observability» для всех, кто хочет научиться агрегировать SLO/SLI в одну или несколько высокоуровневых метрик. Курс подойдет всем, кто хочет предотвращать сбои в работе еще до жалоб пользователей и бизнеса.

После обучения вы сможете работать с единым стандартом сбора и построения пирамиды метрик, который масштабируемой на любые команды.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 0

Dungeons & Dragons для SRE

Время на прочтение 5 мин
Количество просмотров 4.4K
Блог компании OTUS IT-инфраструктура *
Перевод

В прошлой жизни я работал фулл-тайм SRE, а по совместительству был драконорожденным паладином по имени Лорарат (Lorarath). На работе со своей командой я сопровождал тысячи систем, а вечерами пытался выжить в воображаемых битвах и спасти мир от ведьмы Морганы. Мне нравятся совместные игры: они позволяют выплеснуть эмоции и прочувствовать различные социальные процессы, важные для успешного и конструктивного взаимодействия. Игры позволяют практиковаться в поиске решения критических ситуаций в безопасной среде. Если весь процесс лишь плод вашего воображения, то становится проще, даже при проигрыше, взглянуть на себя со стороны, порадоваться новому опыту и достижению общей цели. В этой статье я хочу поделиться мыслями о своей работе, на которые меня навела игра в D&D, и о том, как это может помочь вам.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 6

История внедрения SRE в «Тинькофф»

Время на прочтение 7 мин
Количество просмотров 13K
Блог компании TINKOFF Блог компании Southbridge IT-инфраструктура *Карьера в IT-индустрии DevOps *

Меня зовут Дмитрий Масленников, и я руковожу Центром надёжности информационных систем в Тинькофф. Недавно я выступал на вебинаре Слёрма «Особенности SRE в России». В поддержку своего курса по «SRE: внедряем DevOps от Google» Слёрм собирает интересные кейсы внедрения SRE в российских компаниях. Я рассказал, как устроена наша экосистема SRE, зачем мы используем самописные сервисы, почему в SRE должна работать инженерная элита и как примкнуть к этой элите за один день. А теперь делюсь этим здесь. 

Читать далее
Всего голосов 25: ↑21 и ↓4 +17
Комментарии 21

Как строить надежные, стабильные и отказоустойчивые IT-системы: главное об SRE и SLO

Время на прочтение 7 мин
Количество просмотров 4.3K
Блог компании Southbridge Информационная безопасность *IT-инфраструктура *DevOps *

К современным IT-системам предъявляются очень жесткие требования — они должны быть доступны практически 24/7, чтобы выдерживать конкуренцию на рынке. Для обеспечения такой надежности и доступности существует особый подход — SRE, Site Reliability Engineering.

Меня зовут Иван Круглов, я работаю в компании Databricks и уже несколько лет занимаюсь построением и поддержкой сложных и крупных IT-систем. Хочу рассказать, что такое подход SRE, зачем он нужен, какие критерии надежности существуют и как их определять.

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Комментарии 2

Как внедрить Site Reliability Engineering (SRE) в компании

Время на прочтение 6 мин
Количество просмотров 3.4K
Блог компании Southbridge IT-инфраструктура *DevOps *

В статье разбираемся, зачем компании Site Reliability Engineering (SRE) и когда его применять. Также здесь расписаны шаги, которые помогут обычному инженеру или разработчику внедрить SRE в своей компании.

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 0

Пять инструментов Site Reliability Engineering

Время на прочтение 6 мин
Количество просмотров 5.6K
Блог компании Southbridge IT-инфраструктура *DevOps *

Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться.

В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем. 

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 0

Внедрять или не внедрять. Развеиваем главные мифы о SRE

Время на прочтение 6 мин
Количество просмотров 1.8K
Блог компании Southbridge

Site Reliability Engineering (SRE) пришел в компании, чтобы прорабатывать вопросы надежности целиком всей системы без разделения на отдельные зоны ответственности, как это было при работе сисадминов и программистов до появления DevOps'ов. Однако роль SRE-инженера, которую представил Google, каждый стал трактовать по-своему. Кто-то делал все строго по книге, а кто-то добавил в работу и свое личное видение.  

Со временем обязанности SRE в компаниях, особенно на российском рынке, стали отличаться друг от друга. Вместе с тем появились сопутствующие вопросов о внедрении, обучении сотрудников, применении тех или иных инструментов и тд.

В этой статье мы собрали самые часто встречаемые мифы и вопросы о внедрении SRE и обучении его инструментам. Ответить на них нам помог Максим Гусев, Tech Lead SRE, на счету которого тысячи выстроенных пайплайнов CI/CD и более 100 инсталляций Kubernetes в продакшен.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

А ваша организация задумывается о надежности? Уроки Google SRE

Время на прочтение 8 мин
Количество просмотров 1.9K
Блог компании Southbridge IT-инфраструктура *DevOps *
Перевод

Надёжное ПО повышает доверие пользователей к организации, эффективность процессов разработки и качество продуктов. Сбои вредят клиентам и бизнесу, но при разработке новых функций многие организации думают только об устранении последствий инцидентов и решают проблемы тактически, а не стратегически. Часто они не понимают, что можно работать быстро и при этом создавать надёжный продукт.

В Google много думают о надёжности продуктов, и некоторые аспекты этой философии хорошо изучены. Например, принципы проектирования продукта или системы. При этом мало кто задумывается о том, как влияют на надёжность продукта культура и менталитет в организации. Мы верим в то, что надёжность продукта зависит от архитектуры, процессов, культуры и менталитета в организации, а не только от усилий разработчиков при проектировании. Другими словами, надежность должна быть вплетена в ткань организации.

Не существует набора строгих правил, следуя которым можно гарантировать надёжность продукта. В этой статье SRE-инженеры из Google расскажут о том, как оценить культуру надёжности в вашей организации и какой она должна быть.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 0

Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры

Время на прочтение 8 мин
Количество просмотров 1.9K
Блог компании Southbridge IT-инфраструктура *DevOps *
Перевод

Установка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE. По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым. Когда мы определим эти показатели и установим SLO, нужно проверить их реалистичность с учетом архитектуры приложения и рабочих практик. Мы точно сможем их достичь? На что, скорее всего, уйдёт наш бюджет на ошибки?

SRE-инженеры из Google отвечают на эти вопросы при выпуске нового сервиса, когда проводят PRR (Production Readiness Review — проверку готовности продукта). Мы анализируем риски не для того, чтобы изменить SLO. Скорее, мы хотим приоритизировать риски для сервиса, чтобы прикинуть, сможем ли мы достичь наших SLO с учетом изменений сервиса или без них. Кроме того, с помощью анализа мы определим самые важные риски. Определяя и снижая риски, мы повышаем надежность сервиса.

Прежде чем оценить и приоритизировать риски, нужно составить полный список того, чего стоит опасаться. В этой статье приводятся рекомендации для команд, которые будут определять потенциальные риски для приложения. Определив риски, вы сможете проанализировать их и расставить приоритеты. 

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0

Slack для автоматического управления инцидентами

Время на прочтение 6 мин
Количество просмотров 1.9K
Блог компании Southbridge IT-инфраструктура *DevOps *
Перевод

Инциденты — это непредвиденные события, которые нарушают нормальную работу. Они неизбежны в сложных системах, которые должны работать непрерывно, поэтому так важно подготовиться к ним и научить людей своевременно и организованно на них реагировать. Конечно, каждый инцидент уникален, но у нас есть единая процедура обнаружения, эскалации, управления и разрешения.

В Airbnb используется сервис-ориентированная инфраструктура, состоящая из множества взаимосвязанных сервисов, которыми управляют небольшие команды. Очень важно вовремя понять, в каком сервисе сбой и кому отправлять оповещения. Мы заметили, что наши команды тратят много времени на переключение между приложениями (Slack, Pagerduty и Jira), чтобы создать инцидент, оповестить нужные команды и предоставить контекст. Эта статья посвящена тому, как Airbnb автоматизировала управление инцидентами в своём сложном и быстро развивающемся скоплении микросервисов.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 1

Все полезные материалы о SRE в одном месте

Время на прочтение 4 мин
Количество просмотров 1.9K
Блог компании Southbridge

Привет! Мы решили собрать для вас все статьи о Site reliability engineering (SRE) в одном месте.

В материалах ниже вы найдете информацию о внедрении SRE, вариантах применения отдельных практик, а также полезные кейсы от нескольких компаний.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Современный подход к наблюдаемости

Время на прочтение 6 мин
Количество просмотров 1.8K
Блог компании Southbridge IT-инфраструктура *
Перевод

Эпоха монолитных приложений почти прошла. Современные системы разделены на множество компонентов. Даже в самом простом приложении может быть много микросервисов, а у тех есть свои составляющие, например база данных, так что число элементов в системе растёт в геометрической прогрессии.

Чем качественнее наблюдение, тем меньше багов. А ещё можно вовремя находить узкие места и тратить меньше времени на обслуживание системы. В этой статье мы поговорим о наблюдаемости и её главных инструментах.

Читать далее
Всего голосов 15: ↑12 и ↓3 +9
Комментарии 1

Внедряем устойчивый SRE-подход в компании

Время на прочтение 5 мин
Количество просмотров 2.5K
Блог компании Southbridge IT-инфраструктура *Карьера в IT-индустрии DevOps *
Перевод

Сложно управлять микросервисами, не придерживаясь принципов SRE (site reliability engineering — обеспечение надёжности информационных систем). В этой статье мы расскажем, как наладили процесс SRE в компании Reputation.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 1
1