Search results for «[site reliability engineer]» / Habr

Publications Hubs Companies Users Comments

Polina_Averina Mar 18 2021 at 15:43

Интенсив по SRE 21–23 мая в Москве

4 min

956

Слёрм corporate blogProgramming*IT Infrastructure*IT careerDevOps*

Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.

Формат интенсива: офлайн или онлайн на выбор.

Читать дальше →

+12

Sber Sep 1 2022 at 10:22

Новые вакансии для SRE, DevOps Engineer и Data Scientist

2 min

Сбер corporate blog

Уже в эти выходные, 3 и 4 сентября, мы проведём One Day Offer для Site Reliability Engineer, DevOps Engineer и Data Scientist. Устройтесь на новую работу всего за один день без тестовых заданий и многоэтапных собеседований! Подробности по вакансиям и ссылки для регистрации ищите под катом.

-2

alizar Sep 15 2010 at 14:00

Сотрудник Google уволен за нарушение приватности

1 min

7.7K

IT-companies

Мы доверяем Google личные данные и надеемся, что компания обеспечит максимальную конфиденциальность. На самом деле она не может. Даже несмотря на титаническую работу Google по отсеву потенциальных кандидатов, среди 20 тыс. сотрудников обязательно найдётся «паршивая овца».

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.

27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.

Читать дальше →

+112

151

ph_piter Apr 15 2016 at 12:20

Site Reliability Engineering: антология мудрости Google или новое слово в DevOps

7 min

35K

Издательский дом «Питер» corporate blogWebsite development*IT Standards*Professional literature*

Translation

Здравствуйте, уважаемые читатели!

Полагаем, не только нас заинтересовала книга "Site Reliability Engineering", написанная большим коллективом авторов из Google. Мало того, что она продолжает занимать первые строчки всевозможных рейтингов Amazon; самое интересное, что в ней дается действительно доступная и исчерпывающая информация о безупречной эксплуатации систем любой сложности.

Более того, нас в перспективе интересует и более общая обзорная книга по методологии DevOps, выхода которой мы с нетерпением дожидаемся:

Поскольку мы практически убеждены, что варан с быком составят идеальную пару, остается надеяться на не меньший читательский интерес к SRE и DevOps. Предлагаем изучить немного сокращенный обзор книги «Site Reliability Engineering». Автор статьи Майк Догерти — один из соавторов книги, частично ее вычитывавший.

Читать дальше →

+10

alitenicole Jul 28 2023 at 13:18

В погоне за надежностью: SRE-практики от профессионалов на курсах Слёрма

2 min

356

Слёрм corporate blog

Ещё пять 6-7 лет назад многие знакомились с SRE-практиками по книгам Google. Сейчас крупные компании имеют свой собственный опыт применения этих практик для повышения надежности инфраструктуры. Изучить их быстро, получить ответы на вопросы и первые навыки можно на курсах Слёрма. Мы собрали опыт SRE-инженеров Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам и сделали курс «Site Reliability Engineering: data-driven подход к управлению надежностью систем». Рассказываем, чему можно научиться на этом курсе.

Liloon21 Sep 21 2023 at 18:49

Старт нового потока по SRE — 3 октября

1 min

545

Слёрм corporate blog

SRE — это не только про алертинг и постмортемы. Это ещё про то, чтобы до продакшена не доходил код, который будит ночью. SRE увеличивает скорость выхода новых фич и налаживает процессы в команде. Основная задача — стабильная и надёжная работа сервисов.

AntoniusFirst Jan 16 2020 at 18:02

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

18 min

IT Infrastructure*Reading roomDevOps*Kubernetes*

Tutorial

Translation

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!

Читать дальше →

+15

AntoniusFirst Jan 19 2020 at 18:44

Цели уровня обслуживания — опыт Google (перевод главы книги Google SRE)

14 min

5.6K

IT Infrastructure*Reading roomDevOps*Kubernetes*

Tutorial

Translation

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о мониторинге распределённых систем.

Перевод по катом. Приятного чтения!

Читать дальше →

kmoseenk Feb 7 2022 at 18:55

Just-in-Time Kubernetes: Руководство начинающим для понимания основных концепций Kubernetes

11 min

27K

OTUS corporate blogDevOps*

Translation

Итак, вы хотите освоить Kubernetes. Это такой технологический хайп, о котором, кажется, говорят все. Я затрудняюсь сказать, сколько рекрутеров обращались ко мне с предложением поработать с Kubernetes. Kubernetes — это определенно круто!

Anna_sokol22 Jan 20 2023 at 19:30

Внедряем устойчивый SRE-подход в компании

5 min

Слёрм corporate blogIT Infrastructure*IT careerDevOps*

Translation

Сложно управлять микросервисами, не придерживаясь принципов SRE (site reliability engineering — обеспечение надёжности информационных систем). В этой статье мы расскажем, как наладили процесс SRE в компании Reputation.

+10

Polina_Averina Dec 9 2020 at 11:28

Сказка об Иване-Царевиче, Бабе-Яге и канонiчном SRE (комикс)

1 min

3.7K

Слёрм corporate blogSystem administration*IT Infrastructure*Development Management*DevOps*

Читать дальше →

+16

FaryaRos Dec 22 2020 at 15:44

После DevOps: как стать SRE и устроиться на работу в Google

5 min

9.8K

System administration*IT careerDevOps*

Recovery Mode

SRE — это Site Reliability Engineer

В IT отрасли это инженер, который отвечает за надежность очень сложных сервисов. Появилась профессия в Google и придумали методологию именно там. Оно и понятно, Гугл – это сервис, который использует весь мир. Это огромные мощности и большая сложность.

14 декабря в работе гугла был сбой, весь мир был в недоумении. Вот в таких случаях и нужен SRE-инженер. Он не должен допустить подобных промахов.

Методологию DevOps российский IT-рынок освоил раньше и теперь ведутся жаркие споры об SRE vs DevOps. Кто-то говорит, что это одно и тоже, кто-то, что SRE это нечто, что логично продолжает DevOps. В России профессия только появилась. Крупные банки, которые содержат большие мощности, стали серьезно задумываться о таких ребятах.

В общем, Пока все спорят, мы решили пообщаться об SRE и DevOps, а также о работе в Гугл и Тинькофф.

Одного SRE я нашла в Tinkoff, до этого он работал в Google – у первоисточника, так сказать. Зовут его Дима Масленников. Google мы уделили отдельное внимание, так как есть стереотип, что работать там весело. Мы выяснили, что не всем.

Liloon21 Nov 30 2023 at 12:54

Что важно учитывать при составлении SLA

13 min

2.7K

Слёрм corporate blogIT Infrastructure*DevOps*

Opinion

Translation

Если у вас есть продукт, то у вас есть обязательства перед конечными пользователями. В этом случае SLA (соглашение об уровне обслуживания) — это отличный инструмент. Он помогает сфокусировать внимание разработчиков продукта на том, что больше всего нужно вашим клиентам.

Перевели статью, автор который делится практическими советами при создании SLA. Они помогут лучше понять эту задачу. Автор касается вопросов: что измерять, как измерять где и, самое главное, какие целевые пороги установить.

alitenicole Sep 6 2023 at 17:25

Как рассчитать SLA на примере Nginx-сервера

Easy

5 min

6.1K

Слёрм corporate blogIT Infrastructure*DevOps*

Translation

Соглашение об уровне обслуживания (SLA) – это соглашение с клиентами или пользователями, где описывается уровень обслуживания, который поставщик обещает предоставить клиенту. SLA можно представить в виде измеряемой метрики, например, как время безотказной работы или суммарное количество ошибок. Перевели статью, где рассматривается простой способ расчета SLA на примере Nginx-сервера.

Liloon21 Feb 9 at 13:01

Как реализован SRE подход в Power BI

13 min

1.9K

Слёрм corporate blogIT Infrastructure*DevOps*

Review

Translation

Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.

Liloon21 Feb 21 at 14:26

Уровни серьёзности инцидентов для онлайн-платформ

6 min

1.2K

Слёрм corporate blogIT Infrastructure*DevOps*

Translation

Классификация инцидентов по степени серьёзности – ключевой момент в управлении инцидентами. Она нужна, чтобы SRE команда могла быстро и эффективно устранять неполадки в сложных системах и минимизировать их влияние на клиентов. В этой статье описана система SEV (Security Evaluation Version), которая помогает стандартизировать процесс устранения проблем, быстрее восстановить работу системы и уведомить о происшествии всех, кого это касается, в зависимости от серьёзности инцидента.

cazorla19 Feb 22 2018 at 12:40

Интервью портала A Cloud Guru с Келси Хайтауэром: о DevOps, Kubernetes и serverless

9 min

6.2K

FUNCORP corporate blogCloud computing*Amazon Web Services*DevOps*Google Cloud Platform*

Translation

Наверняка не все знают, что по нагрузке и числу пользователей iFunny является настоящим highload-сервисом. API обслуживает в пиках порядка 15000 запросов в секунду, система аналитики обрабатывает около 5 миллиардов событий в сутки, а для поддержки полного функционала работает до 400 инстансов EC2. Поэтому для приложения очень важно иметь сильную команду инженеров. Чтобы решать типичные проблемы высоконагруженных систем и улучшать свою работу каждый день, команда iFunny постоянно ищет новые инструменты и решения. И в этот раз невозможно было пройти мимо интервью одного из основных контрибьюторов мирового IT-сообщества — Келси Хайтауэра. Достойно перевода и вашего внимания.

+17

ph_piter Feb 22 2018 at 17:51

Обзор книги Database Reliability Engineering

5 min

9.8K

Издательский дом «Питер» corporate blogSystem Analysis and Design*IT Infrastructure*Database Administration*Professional literature*

Translation

Здравствуйте, коллеги!

У нас только что пришла из типографии долгожданная фундаментальная работа Мартина Клеппмана, именуемая в оригинале "Designing Data-Intensive Applications" (анонсировали ее мы еще в сентябре 2016 года). Книга доступна для заказа на сайте (не благодарите, мы сами ликуем)

А в конце ноября прошлого года в издательстве «O'Reilly» вышла долгожданная книга «Database Reliability Engineering», которая, на наш взгляд, отлично дополнила бы работу Клеппмана. Кстати, пока на Amazon — только восторженные отзывы

Под катом мы предлагаем вам не только оптимистичный обзор книги с лошадкой, но и реалистичный комментарий к этому обзору, который, надеемся, также вас заинтересует

Читать дальше →

+15

ph_piter Apr 3 2018 at 12:46

Книга «Высоконагруженные приложения. Программирование, масштабирование, поддержка»

16 min

67K

Издательский дом «Питер» corporate blogSystem Analysis and Design*IT Infrastructure*Database Administration*Professional literature*

В этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков. В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

В обзорном посте рассматривается раздел «Знание, истина и ложь».

Если у вас нет опыта работы с распределенными системами, то последствия этих проблем могут оказаться весьма дезориентирующими. Узел сети ничего не знает наверняка — он способен только делать предположения на основе получаемых (или не получаемых) им по сети сообщений. Один узел в силе узнать состояние другого узла (какие данные на нем хранятся, правильно ли он работает), только обмениваясь с ним сообщениями. Если удаленный узел не отвечает, то нет никакого способа выяснить его состояние, поскольку невозможно отличить сетевые проблемы от проблем в узле.

Читать дальше →

+14

Polina_Averina Oct 27 2020 at 03:53

«Цель SRE — надёжная система». Обзор основных метрик SRE

10 min

60K

Слёрм corporate blogSystem administration*IT Infrastructure*Development Management*DevOps*

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.

В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.

Читать дальше →

+22