Как стать автором
Обновить

Интенсив по SRE 21–23 мая в Москве

Блог компании Southbridge Программирование *IT-инфраструктура *Карьера в IT-индустрии DevOps *


Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.


Формат интенсива: офлайн или онлайн на выбор.

Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 774
Комментарии 0

Сотрудник Google уволен за нарушение приватности

IT-компании
Мы доверяем Google личные данные и надеемся, что компания обеспечит максимальную конфиденциальность. На самом деле она не может. Даже несмотря на титаническую работу Google по отсеву потенциальных кандидатов, среди 20 тыс. сотрудников обязательно найдётся «паршивая овца».

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.

27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.
Читать дальше →
Всего голосов 132: ↑122 и ↓10 +112
Просмотры 4.2K
Комментарии 151

Site Reliability Engineering: антология мудрости Google или новое слово в DevOps

Блог компании Издательский дом «Питер» Разработка веб-сайтов *IT-стандарты *Профессиональная литература *
Перевод
Здравствуйте, уважаемые читатели!

Полагаем, не только нас заинтересовала книга "Site Reliability Engineering", написанная большим коллективом авторов из Google. Мало того, что она продолжает занимать первые строчки всевозможных рейтингов Amazon; самое интересное, что в ней дается действительно доступная и исчерпывающая информация о безупречной эксплуатации систем любой сложности.



Более того, нас в перспективе интересует и более общая обзорная книга по методологии DevOps, выхода которой мы с нетерпением дожидаемся:



Поскольку мы практически убеждены, что варан с быком составят идеальную пару, остается надеяться на не меньший читательский интерес к SRE и DevOps. Предлагаем изучить немного сокращенный обзор книги «Site Reliability Engineering». Автор статьи Майк Догерти — один из соавторов книги, частично ее вычитывавший.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 35K
Комментарии 5

Обзор книги Database Reliability Engineering

Блог компании Издательский дом «Питер» Анализ и проектирование систем *IT-инфраструктура *Администрирование баз данных *Профессиональная литература *
Перевод
Здравствуйте, коллеги!

У нас только что пришла из типографии долгожданная фундаментальная работа Мартина Клеппмана, именуемая в оригинале "Designing Data-Intensive Applications" (анонсировали ее мы еще в сентябре 2016 года). Книга доступна для заказа на сайте (не благодарите, мы сами ликуем)



А в конце ноября прошлого года в издательстве «O'Reilly» вышла долгожданная книга «Database Reliability Engineering», которая, на наш взгляд, отлично дополнила бы работу Клеппмана. Кстати, пока на Amazon — только восторженные отзывы



Под катом мы предлагаем вам не только оптимистичный обзор книги с лошадкой, но и реалистичный комментарий к этому обзору, который, надеемся, также вас заинтересует
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 8.9K
Комментарии 7

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

Блог компании Издательский дом «Питер» Анализ и проектирование систем *IT-инфраструктура *Администрирование баз данных *Профессиональная литература *
imageВ этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков. В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

В обзорном посте рассматривается раздел «Знание, истина и ложь».

Если у вас нет опыта работы с распределенными системами, то последствия этих проблем могут оказаться весьма дезориентирующими. Узел сети ничего не знает наверняка — он способен только делать предположения на основе получаемых (или не получаемых) им по сети сообщений. Один узел в силе узнать состояние другого узла (какие данные на нем хранятся, правильно ли он работает), только обмениваясь с ним сообщениями. Если удаленный узел не отвечает, то нет никакого способа выяснить его состояние, поскольку невозможно отличить сетевые проблемы от проблем в узле.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 40K
Комментарии 6

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

IT-инфраструктура *Читальный зал DevOps *Kubernetes *
Перевод
Tutorial


SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 5.9K
Комментарии 3

Цели уровня обслуживания — опыт Google (перевод главы книги Google SRE)

IT-инфраструктура *Читальный зал DevOps *Kubernetes *
Перевод
Tutorial
image

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о мониторинге распределённых систем.

Перевод по катом. Приятного чтения!
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 4.8K
Комментарии 1

«Цель SRE — надёжная система». Обзор основных метрик SRE

Блог компании Southbridge Системное администрирование *IT-инфраструктура *Управление разработкой *DevOps *

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.


В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.


Читать дальше →
Всего голосов 22: ↑22 и ↓0 +22
Просмотры 40K
Комментарии 1

Как Лёха стал инженером по SRE: выдуманная история про невыдуманные проблемы

Блог компании Southbridge Системное администрирование *IT-инфраструктура *Управление разработкой *DevOps *

Направление Site Reliability Engineering становится всё более популярным. Хайп не на пустом месте: проблемы и задачи, которые решает SRE, действительно насущны для многих компаний.

Популярность SRE растёт, но знаний о нём всё ещё недостаточно. Я не буду повторять формальные определения, а вместо этого расскажу несколько историй из жизни системного инженера Лёхи. Путь выдуманного Лёхи во многом похож на путь, который прошли реальные крупные компании, где впервые и возникли SRE-инженеры (даже если назывались иначе).

Через историю Лёхи вы узнаете о задачах, которые решает SRE, и причинах, по которым для решения этих задач пришлось выделять отдельный класс инженеров.

Читать дальше
Всего голосов 31: ↑30 и ↓1 +29
Просмотры 10K
Комментарии 14

«Можно бить разработчиков за баги, а можно внедрить SRE» — о чём говорили на митапе Слёрма

Блог компании Southbridge Системное администрирование *IT-инфраструктура *Управление разработкой *DevOps *


Зачем нужно SRE, когда есть DevOps, что такое SLO и бюджет на ошибки, каким компаниям точно не надо внедрять новую методологию, существуют ли джуниор-инженеры по SRE и сколько платят опытным. Об этом и не только говорили на митапе Слёрма «Профессия SRE: практика и мифы».


На YouTube можно посмотреть видеозапись встречи, а здесь мы приводим текстовую версию разговора с некоторыми сокращениями.

Читать дальше →
Всего голосов 17: ↑12 и ↓5 +7
Просмотры 5.7K
Комментарии 0

После DevOps: как стать SRE и устроиться на работу в Google

Системное администрирование *Карьера в IT-индустрии DevOps *
Recovery mode

SRE — это Site Reliability Engineer


В IT отрасли это инженер, который отвечает за надежность очень сложных сервисов. Появилась профессия в Google и придумали методологию именно там. Оно и понятно, Гугл – это сервис, который использует весь мир. Это огромные мощности и большая сложность.

14 декабря в работе гугла был сбой, весь мир был в недоумении. Вот в таких случаях и нужен SRE-инженер. Он не должен допустить подобных промахов.

Методологию DevOps российский IT-рынок освоил раньше и теперь ведутся жаркие споры об SRE vs DevOps. Кто-то говорит, что это одно и тоже, кто-то, что SRE это нечто, что логично продолжает DevOps. В России профессия только появилась. Крупные банки, которые содержат большие мощности, стали серьезно задумываться о таких ребятах.

В общем, Пока все спорят, мы решили пообщаться об SRE и DevOps, а также о работе в Гугл и Тинькофф.

Одного SRE я нашла в Tinkoff, до этого он работал в Google – у первоисточника, так сказать. Зовут его Дима Масленников. Google мы уделили отдельное внимание, так как есть стереотип, что работать там весело. Мы выяснили, что не всем.

Всего голосов 14: ↑8 и ↓6 +2
Просмотры 6.9K
Комментарии 2

Проектирование надёжности сайта для Kubernetes

Блог компании OTUS Kubernetes *
Перевод

За последние 4,5 года Kubernetes значительно улучшилась с точки зрения удобства использования, и теперь начать работу с Kubernetes стало проще, чем когда-либо. Облачные провайдеры, такие как Amazon AWS, теперь располагают продуктами Kubernetes, которые создают кластеры для вас и управляют ими. Это существенное преимущество по сравнению с созданием собственного кластера Kubernetes.

Один из самых заметных сдвигов в нашей отрасли, который я наблюдал за последние 2 года, заключается в том, что теперь все больше компаний используют Kubernetes в своих производственных нагрузках. Именно сейчас все становится интересным для SRE. Мы получаем возможность учиться друг у друга, обсуждать общие проблемы в области надежности и делиться ее принципами, которым нужно следовать, чтобы укрепить кластеры Kubernetes.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 3.1K
Комментарии 0

Just-in-Time Kubernetes: Руководство начинающим для понимания основных концепций Kubernetes

Блог компании OTUS DevOps *
Перевод

Итак, вы хотите освоить Kubernetes. Это такой технологический хайп, о котором, кажется, говорят все. Я затрудняюсь сказать, сколько рекрутеров обращались ко мне с предложением поработать с Kubernetes. Kubernetes — это определенно круто!

Читать далее
Всего голосов 12: ↑9 и ↓3 +6
Просмотры 19K
Комментарии 18