Pull to refresh

Интенсив по SRE 21–23 мая в Москве

Southbridge corporate blog Programming *IT Infrastructure *IT career DevOps *


Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.


Формат интенсива: офлайн или онлайн на выбор.

Читать дальше →
Total votes 14: ↑13 and ↓1 +12
Views 759
Comments 0

Сотрудник Google уволен за нарушение приватности

IT-companies
Мы доверяем Google личные данные и надеемся, что компания обеспечит максимальную конфиденциальность. На самом деле она не может. Даже несмотря на титаническую работу Google по отсеву потенциальных кандидатов, среди 20 тыс. сотрудников обязательно найдётся «паршивая овца».

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.

27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.
Читать дальше →
Total votes 132: ↑122 and ↓10 +112
Views 4.2K
Comments 151

Site Reliability Engineering: антология мудрости Google или новое слово в DevOps

Издательский дом «Питер» corporate blog Website development *IT Standards *Professional literature *
Translation
Здравствуйте, уважаемые читатели!

Полагаем, не только нас заинтересовала книга "Site Reliability Engineering", написанная большим коллективом авторов из Google. Мало того, что она продолжает занимать первые строчки всевозможных рейтингов Amazon; самое интересное, что в ней дается действительно доступная и исчерпывающая информация о безупречной эксплуатации систем любой сложности.



Более того, нас в перспективе интересует и более общая обзорная книга по методологии DevOps, выхода которой мы с нетерпением дожидаемся:



Поскольку мы практически убеждены, что варан с быком составят идеальную пару, остается надеяться на не меньший читательский интерес к SRE и DevOps. Предлагаем изучить немного сокращенный обзор книги «Site Reliability Engineering». Автор статьи Майк Догерти — один из соавторов книги, частично ее вычитывавший.
Читать дальше →
Total votes 10: ↑10 and ↓0 +10
Views 35K
Comments 5

Обзор книги Database Reliability Engineering

Издательский дом «Питер» corporate blog System Analysis and Design *IT Infrastructure *Database Administration *Professional literature *
Translation
Здравствуйте, коллеги!

У нас только что пришла из типографии долгожданная фундаментальная работа Мартина Клеппмана, именуемая в оригинале "Designing Data-Intensive Applications" (анонсировали ее мы еще в сентябре 2016 года). Книга доступна для заказа на сайте (не благодарите, мы сами ликуем)



А в конце ноября прошлого года в издательстве «O'Reilly» вышла долгожданная книга «Database Reliability Engineering», которая, на наш взгляд, отлично дополнила бы работу Клеппмана. Кстати, пока на Amazon — только восторженные отзывы



Под катом мы предлагаем вам не только оптимистичный обзор книги с лошадкой, но и реалистичный комментарий к этому обзору, который, надеемся, также вас заинтересует
Читать дальше →
Total votes 17: ↑16 and ↓1 +15
Views 8.8K
Comments 7

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

Издательский дом «Питер» corporate blog System Analysis and Design *IT Infrastructure *Database Administration *Professional literature *
imageВ этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков. В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

В обзорном посте рассматривается раздел «Знание, истина и ложь».

Если у вас нет опыта работы с распределенными системами, то последствия этих проблем могут оказаться весьма дезориентирующими. Узел сети ничего не знает наверняка — он способен только делать предположения на основе получаемых (или не получаемых) им по сети сообщений. Один узел в силе узнать состояние другого узла (какие данные на нем хранятся, правильно ли он работает), только обмениваясь с ним сообщениями. Если удаленный узел не отвечает, то нет никакого способа выяснить его состояние, поскольку невозможно отличить сетевые проблемы от проблем в узле.
Читать дальше →
Total votes 14: ↑14 and ↓0 +14
Views 39K
Comments 6

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

IT Infrastructure *Reading room DevOps *Kubernetes *
Translation
Tutorial


SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views 5.9K
Comments 3

Цели уровня обслуживания — опыт Google (перевод главы книги Google SRE)

IT Infrastructure *Reading room DevOps *Kubernetes *
Translation
Tutorial
image

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о мониторинге распределённых систем.

Перевод по катом. Приятного чтения!
Читать дальше →
Total votes 9: ↑9 and ↓0 +9
Views 4.8K
Comments 1

«Цель SRE — надёжная система». Обзор основных метрик SRE

Southbridge corporate blog System administration *IT Infrastructure *Development Management *DevOps *

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.


В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.


Читать дальше →
Total votes 22: ↑22 and ↓0 +22
Views 38K
Comments 1

Как Лёха стал инженером по SRE: выдуманная история про невыдуманные проблемы

Southbridge corporate blog System administration *IT Infrastructure *Development Management *DevOps *

Направление Site Reliability Engineering становится всё более популярным. Хайп не на пустом месте: проблемы и задачи, которые решает SRE, действительно насущны для многих компаний.

Популярность SRE растёт, но знаний о нём всё ещё недостаточно. Я не буду повторять формальные определения, а вместо этого расскажу несколько историй из жизни системного инженера Лёхи. Путь выдуманного Лёхи во многом похож на путь, который прошли реальные крупные компании, где впервые и возникли SRE-инженеры (даже если назывались иначе).

Через историю Лёхи вы узнаете о задачах, которые решает SRE, и причинах, по которым для решения этих задач пришлось выделять отдельный класс инженеров.

Читать дальше
Total votes 31: ↑30 and ↓1 +29
Views 10K
Comments 14

«Можно бить разработчиков за баги, а можно внедрить SRE» — о чём говорили на митапе Слёрма

Southbridge corporate blog System administration *IT Infrastructure *Development Management *DevOps *


Зачем нужно SRE, когда есть DevOps, что такое SLO и бюджет на ошибки, каким компаниям точно не надо внедрять новую методологию, существуют ли джуниор-инженеры по SRE и сколько платят опытным. Об этом и не только говорили на митапе Слёрма «Профессия SRE: практика и мифы».


На YouTube можно посмотреть видеозапись встречи, а здесь мы приводим текстовую версию разговора с некоторыми сокращениями.

Читать дальше →
Total votes 17: ↑12 and ↓5 +7
Views 5.7K
Comments 0

После DevOps: как стать SRE и устроиться на работу в Google

System administration *IT career DevOps *
Recovery mode

SRE — это Site Reliability Engineer


В IT отрасли это инженер, который отвечает за надежность очень сложных сервисов. Появилась профессия в Google и придумали методологию именно там. Оно и понятно, Гугл – это сервис, который использует весь мир. Это огромные мощности и большая сложность.

14 декабря в работе гугла был сбой, весь мир был в недоумении. Вот в таких случаях и нужен SRE-инженер. Он не должен допустить подобных промахов.

Методологию DevOps российский IT-рынок освоил раньше и теперь ведутся жаркие споры об SRE vs DevOps. Кто-то говорит, что это одно и тоже, кто-то, что SRE это нечто, что логично продолжает DevOps. В России профессия только появилась. Крупные банки, которые содержат большие мощности, стали серьезно задумываться о таких ребятах.

В общем, Пока все спорят, мы решили пообщаться об SRE и DevOps, а также о работе в Гугл и Тинькофф.

Одного SRE я нашла в Tinkoff, до этого он работал в Google – у первоисточника, так сказать. Зовут его Дима Масленников. Google мы уделили отдельное внимание, так как есть стереотип, что работать там весело. Мы выяснили, что не всем.

Total votes 14: ↑8 and ↓6 +2
Views 6.7K
Comments 2

Проектирование надёжности сайта для Kubernetes

OTUS corporate blog Kubernetes *
Translation

За последние 4,5 года Kubernetes значительно улучшилась с точки зрения удобства использования, и теперь начать работу с Kubernetes стало проще, чем когда-либо. Облачные провайдеры, такие как Amazon AWS, теперь располагают продуктами Kubernetes, которые создают кластеры для вас и управляют ими. Это существенное преимущество по сравнению с созданием собственного кластера Kubernetes.

Один из самых заметных сдвигов в нашей отрасли, который я наблюдал за последние 2 года, заключается в том, что теперь все больше компаний используют Kubernetes в своих производственных нагрузках. Именно сейчас все становится интересным для SRE. Мы получаем возможность учиться друг у друга, обсуждать общие проблемы в области надежности и делиться ее принципами, которым нужно следовать, чтобы укрепить кластеры Kubernetes.

Читать далее
Total votes 9: ↑9 and ↓0 +9
Views 3.1K
Comments 0

Just-in-Time Kubernetes: Руководство начинающим для понимания основных концепций Kubernetes

OTUS corporate blog DevOps *
Translation

Итак, вы хотите освоить Kubernetes. Это такой технологический хайп, о котором, кажется, говорят все. Я затрудняюсь сказать, сколько рекрутеров обращались ко мне с предложением поработать с Kubernetes. Kubernetes — это определенно круто!

Читать далее
Total votes 12: ↑9 and ↓3 +6
Views 18K
Comments 18