Pull to refresh

Интенсив по SRE 21–23 мая в Москве

Reading time4 min
Views956


Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.


Формат интенсива: офлайн или онлайн на выбор.

Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments0

Новые вакансии для SRE, DevOps Engineer и Data Scientist

Reading time2 min
Views1K

Уже в эти выходные, 3 и 4 сентября, мы проведём One Day Offer для Site Reliability Engineer, DevOps Engineer и Data Scientist. Устройтесь на новую работу всего за один день без тестовых заданий и многоэтапных собеседований! Подробности по вакансиям и ссылки для регистрации ищите под катом.

Читать далее
Total votes 8: ↑3 and ↓5-2
Comments0

Сотрудник Google уволен за нарушение приватности

Reading time1 min
Views7.7K
Мы доверяем Google личные данные и надеемся, что компания обеспечит максимальную конфиденциальность. На самом деле она не может. Даже несмотря на титаническую работу Google по отсеву потенциальных кандидатов, среди 20 тыс. сотрудников обязательно найдётся «паршивая овца».

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.

27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.
Читать дальше →
Total votes 132: ↑122 and ↓10+112
Comments151

Site Reliability Engineering: антология мудрости Google или новое слово в DevOps

Reading time7 min
Views35K
Здравствуйте, уважаемые читатели!

Полагаем, не только нас заинтересовала книга "Site Reliability Engineering", написанная большим коллективом авторов из Google. Мало того, что она продолжает занимать первые строчки всевозможных рейтингов Amazon; самое интересное, что в ней дается действительно доступная и исчерпывающая информация о безупречной эксплуатации систем любой сложности.



Более того, нас в перспективе интересует и более общая обзорная книга по методологии DevOps, выхода которой мы с нетерпением дожидаемся:



Поскольку мы практически убеждены, что варан с быком составят идеальную пару, остается надеяться на не меньший читательский интерес к SRE и DevOps. Предлагаем изучить немного сокращенный обзор книги «Site Reliability Engineering». Автор статьи Майк Догерти — один из соавторов книги, частично ее вычитывавший.
Читать дальше →
Total votes 10: ↑10 and ↓0+10
Comments5

В погоне за надежностью: SRE-практики от профессионалов на курсах Слёрма

Reading time2 min
Views356

Ещё пять 6-7 лет назад многие знакомились с SRE-практиками по книгам Google. Сейчас крупные компании имеют свой собственный опыт применения этих практик для повышения надежности инфраструктуры. Изучить их быстро, получить ответы на вопросы и первые навыки можно на курсах Слёрма. Мы собрали опыт SRE-инженеров Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам и сделали курс «Site Reliability Engineering: data-driven подход к управлению надежностью систем». Рассказываем, чему можно научиться на этом курсе.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments0

Старт нового потока по SRE — 3 октября

Reading time1 min
Views545

SRE — это не только про алертинг и постмортемы. Это ещё про то, чтобы до продакшена не доходил код, который будит ночью. SRE увеличивает скорость выхода новых фич и налаживает процессы в команде. Основная задача — стабильная и надёжная работа сервисов.

Читать далее
Total votes 3: ↑2 and ↓1+1
Comments0

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

Reading time18 min
Views7K


SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать дальше →
Total votes 15: ↑15 and ↓0+15
Comments3

Цели уровня обслуживания — опыт Google (перевод главы книги Google SRE)

Reading time14 min
Views5.6K
image

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о мониторинге распределённых систем.

Перевод по катом. Приятного чтения!
Читать дальше →
Total votes 9: ↑9 and ↓0+9
Comments1

Just-in-Time Kubernetes: Руководство начинающим для понимания основных концепций Kubernetes

Reading time11 min
Views27K

Итак, вы хотите освоить Kubernetes. Это такой технологический хайп, о котором, кажется, говорят все. Я затрудняюсь сказать, сколько рекрутеров обращались ко мне с предложением поработать с Kubernetes. Kubernetes — это определенно круто!

Читать далее
Total votes 12: ↑9 and ↓3+6
Comments18

Внедряем устойчивый SRE-подход в компании

Reading time5 min
Views3K

Сложно управлять микросервисами, не придерживаясь принципов SRE (site reliability engineering — обеспечение надёжности информационных систем). В этой статье мы расскажем, как наладили процесс SRE в компании Reputation.

Читать далее
Total votes 12: ↑11 and ↓1+10
Comments1

После DevOps: как стать SRE и устроиться на работу в Google

Reading time5 min
Views9.8K

SRE — это Site Reliability Engineer


В IT отрасли это инженер, который отвечает за надежность очень сложных сервисов. Появилась профессия в Google и придумали методологию именно там. Оно и понятно, Гугл – это сервис, который использует весь мир. Это огромные мощности и большая сложность.

14 декабря в работе гугла был сбой, весь мир был в недоумении. Вот в таких случаях и нужен SRE-инженер. Он не должен допустить подобных промахов.

Методологию DevOps российский IT-рынок освоил раньше и теперь ведутся жаркие споры об SRE vs DevOps. Кто-то говорит, что это одно и тоже, кто-то, что SRE это нечто, что логично продолжает DevOps. В России профессия только появилась. Крупные банки, которые содержат большие мощности, стали серьезно задумываться о таких ребятах.

В общем, Пока все спорят, мы решили пообщаться об SRE и DevOps, а также о работе в Гугл и Тинькофф.

Одного SRE я нашла в Tinkoff, до этого он работал в Google – у первоисточника, так сказать. Зовут его Дима Масленников. Google мы уделили отдельное внимание, так как есть стереотип, что работать там весело. Мы выяснили, что не всем.

Total votes 14: ↑8 and ↓6+2
Comments2

Что важно учитывать при составлении SLA

Reading time13 min
Views2.7K

Если у вас есть продукт, то у вас есть обязательства перед конечными пользователями. В этом случае SLA (соглашение об уровне обслуживания) — это отличный инструмент. Он помогает сфокусировать внимание разработчиков продукта на том, что больше всего нужно вашим клиентам.

Перевели статью, автор который делится практическими советами при создании SLA. Они помогут лучше понять эту задачу. Автор касается вопросов: что измерять, как измерять где и, самое главное, какие целевые пороги установить.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments0

Как рассчитать SLA на примере Nginx-сервера

Level of difficultyEasy
Reading time5 min
Views6.1K

Соглашение об уровне обслуживания (SLA) – это соглашение с клиентами или пользователями, где описывается уровень обслуживания, который поставщик обещает предоставить клиенту. SLA можно представить в виде измеряемой метрики, например, как время безотказной работы или суммарное количество ошибок. Перевели статью, где рассматривается простой способ расчета SLA на примере Nginx-сервера.

Читать далее
Total votes 9: ↑7 and ↓2+5
Comments1

Как реализован SRE подход в Power BI

Reading time13 min
Views1.9K

Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments1

Уровни серьёзности инцидентов для онлайн-платформ

Reading time6 min
Views1.2K

Классификация инцидентов по степени серьёзности – ключевой момент в управлении инцидентами. Она нужна, чтобы SRE команда могла быстро и эффективно устранять неполадки в сложных системах и минимизировать их влияние на клиентов. В этой статье описана система SEV (Security Evaluation Version), которая помогает стандартизировать процесс устранения проблем, быстрее восстановить работу системы и уведомить о происшествии всех, кого это касается, в зависимости от серьёзности инцидента.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

Интервью портала A Cloud Guru с Келси Хайтауэром: о DevOps, Kubernetes и serverless

Reading time9 min
Views6.2K

image


Наверняка не все знают, что по нагрузке и числу пользователей iFunny является настоящим highload-сервисом. API обслуживает в пиках порядка 15000 запросов в секунду, система аналитики обрабатывает около 5 миллиардов событий в сутки, а для поддержки полного функционала работает до 400 инстансов EC2. Поэтому для приложения очень важно иметь сильную команду инженеров. Чтобы решать типичные проблемы высоконагруженных систем и улучшать свою работу каждый день, команда iFunny постоянно ищет новые инструменты и решения. И в этот раз невозможно было пройти мимо интервью одного из основных контрибьюторов мирового IT-сообщества — Келси Хайтауэра. Достойно перевода и вашего внимания.

Total votes 19: ↑18 and ↓1+17
Comments0

Обзор книги Database Reliability Engineering

Reading time5 min
Views9.8K
Здравствуйте, коллеги!

У нас только что пришла из типографии долгожданная фундаментальная работа Мартина Клеппмана, именуемая в оригинале "Designing Data-Intensive Applications" (анонсировали ее мы еще в сентябре 2016 года). Книга доступна для заказа на сайте (не благодарите, мы сами ликуем)



А в конце ноября прошлого года в издательстве «O'Reilly» вышла долгожданная книга «Database Reliability Engineering», которая, на наш взгляд, отлично дополнила бы работу Клеппмана. Кстати, пока на Amazon — только восторженные отзывы



Под катом мы предлагаем вам не только оптимистичный обзор книги с лошадкой, но и реалистичный комментарий к этому обзору, который, надеемся, также вас заинтересует
Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments7

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

Reading time16 min
Views67K
imageВ этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков. В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

В обзорном посте рассматривается раздел «Знание, истина и ложь».

Если у вас нет опыта работы с распределенными системами, то последствия этих проблем могут оказаться весьма дезориентирующими. Узел сети ничего не знает наверняка — он способен только делать предположения на основе получаемых (или не получаемых) им по сети сообщений. Один узел в силе узнать состояние другого узла (какие данные на нем хранятся, правильно ли он работает), только обмениваясь с ним сообщениями. Если удаленный узел не отвечает, то нет никакого способа выяснить его состояние, поскольку невозможно отличить сетевые проблемы от проблем в узле.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments6

«Цель SRE — надёжная система». Обзор основных метрик SRE

Reading time10 min
Views60K

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.


В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.


Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments1
1