Как стать автором
Обновить
28
0

Пользователь

Отправить сообщение

История внедрения SRE в «Тинькофф»

Время на прочтение7 мин
Количество просмотров17K

Меня зовут Дмитрий Масленников, и я руковожу Центром надёжности информационных систем в Тинькофф. Недавно я выступал на вебинаре Слёрма «Особенности SRE в России». В поддержку своего курса по «SRE: внедряем DevOps от Google» Слёрм собирает интересные кейсы внедрения SRE в российских компаниях. Я рассказал, как устроена наша экосистема SRE, зачем мы используем самописные сервисы, почему в SRE должна работать инженерная элита и как примкнуть к этой элите за один день. А теперь делюсь этим здесь. 

Читать далее
Всего голосов 22: ↑18 и ↓4+17
Комментарии21

Пишем свои модули для Ansible на Python

Время на прочтение27 мин
Количество просмотров18K

Для жаждующих знаний и прогресса собрали материал из урока Дениса Наумова, спикера курсов Ansible и Python для инженеров. Немного разберёмся с теорией и посмотрим как написать модуль для создания пользователей в базе данных.

Материал объёмный. Рекомендуем сразу открыть итоговый код файла clickhouse.py для удобной работы со статьей.

Читать далее
Всего голосов 16: ↑15 и ↓1+17
Комментарии5

Причины, по которым сайты не справляются с ростом нагрузки: опыт Southbridge

Время на прочтение4 мин
Количество просмотров4K

В статье на реальных кейсах из разных сфер разберём, почему сайты не справляются с ростом нагрузки. Для соблюдения NDA мы не называем заказчиков, а также опускаем детали, которые могли бы их раскрыть.

Читать
Всего голосов 15: ↑12 и ↓3+12
Комментарии10

Мой путь в SRE

Время на прочтение8 мин
Количество просмотров6K

Артем Артемьев, Lead SRE в компании Tango Me, повидал разный SRE. Прорабатывая программу четвёртого интенсива Слёрм «SRE: внедряем DevOps от Google», мы решили провести ещё и открытое интервью с Артемом. Он пошагово и обстоятельно делится своим 12-летним опытом в этой сфере, не скрывая трудностей и открыто говоря о требованиях к кандидатам. 

Когда SRE один, а в каждой компании его воспринимают и используют по-разному, возникает множество вопросов и сомнений. Артем развеял большую часть из них, приведя личные примеры и комментируя каждый из них. 

Читать далее
Всего голосов 17: ↑17 и ↓0+17
Комментарии1

Обязанности SRE-инженера в зарубежных вакансиях

Время на прочтение5 мин
Количество просмотров31K

В 2016 году Google выпустила ту самую книгу о SRE (Site Reliability Engineering). Эта практика решала важную задачу компании — поддержание высокой надёжности сервисов Google. За годы практика широко распространилась среди разработчиков по всему миру. Теперь во многих стартапах и крупных корпорациях есть должность SRE-инженера.

Практика относительно новая, так что пока не совсем понятно, что конкретно должны делать SRE-инженеры. Можно, конечно, почитать книжки или посмотреть видео, но полный список должностных обязанностей по ним не составишь.

Мы решили проанализировать 30 объявлений о вакансиях SRE-инженеров в Google, Twitter, Slack и т. д.

Читать перевод
Всего голосов 10: ↑10 и ↓0+10
Комментарии9

Добро пожаловать в Зольни: как из стажировки Southbridge появилась новая компания

Время на прочтение5 мин
Количество просмотров1.7K

С апреля 2021 года в Southbridge проходит стажировка для тех, кто хочет стать DevOps-инженером. За полгода мы запустили 6 потоков, в которых поучаствовало больше 80 человек. На старте планировали, что проект поможет нам подготовить DevOps-специалистов для себя. Оказалось, стажировка — отличная площадка для экспериментов, которые приводят к неожиданным результатам. Например, мы не ожидали, что из стажировки появится новая компания Зольни.

В статье рассказываем, какие идеи по развитию стажёрской программы у нас были, а также объясняем, что такое Зольни.

Читать далее
Всего голосов 14: ↑13 и ↓1+14
Комментарии2

История внедрения SRE в Dodo Engineering

Время на прочтение10 мин
Количество просмотров6K

Татьяна Гребенюкова, продакт-оунер курса Слёрм «SRE: внедряем DevOps от Google», собирает интересные кейсы внедрения SRE в российских компаниях. Некоторые истории мы используем для развития курса, а другими рады поделиться со всеми.

Сергей Бухаров, SRE из Dodo Engineering, рассказал историю внедрения SRE в компании, какие практики из книжек оказались неприменимы и из чего состоят будни SRE-команды.

Читать далее
Всего голосов 18: ↑17 и ↓1+19
Комментарии2

HTTP/3: развёртывание HTTP/3 на практике. Часть 3

Время на прочтение29 мин
Количество просмотров22K

Фото Wolfgang Rottmann, Unsplash.com

После почти пятилетних разработок протокол HTTP/3 наконец приближается к окончательному выпуску. Рассказываем, какие трудности могут возникнуть при развёртывании и тестировании HTTP/3 и как адаптировать к нему сайты и ресурсы.

Это третья и последняя часть серии о новых протоколах HTTP/3 и QUIC. Если, прочитав предыдущие две части об истории и основных концепциях и функциях производительности HTTP/3, вы решили, что новые протоколы срочно нужно внедрять (будем надеяться, что так вы и решили), здесь мы расскажем, как это сделать.
Читать дальше →
Всего голосов 21: ↑19 и ↓2+21
Комментарии12

Как настроить Jenkins в связке с Ansible

Время на прочтение8 мин
Количество просмотров26K

Эта статья — способ заглянуть в курс «Ansible: от первых шагов до большого проекта». Всеволод Севостьянов, Lead Engineer в Vene, отвечающий за пайплайны и deployment, показал, как настраивать Jenkins в связке с Ansible.

Читать
Всего голосов 14: ↑13 и ↓1+15
Комментарии16

HTTP/3: улучшения производительности. Часть 2

Время на прочтение32 мин
Количество просмотров17K

Фото Jack Hunter, Unsplash.com

После почти пятилетней разработки протокол HTTP/3 наконец приближается к окончательному выпуску. Здесь мы узнаем, как в HTTP/3 улучшилась производительность, включая контроль перегрузок, блокировки HoL и установку соединения 0-RTT.

Это вторая часть серии о новом протоколе HTTP/3. В первой мы говорили о том, зачем нам вообще нужен HTTP/3, о протоколе QUIC и новых возможностях.
Читать дальше →
Всего голосов 20: ↑19 и ↓1+23
Комментарии5

Как взглянуть на Kubernetes с другой стороны? Рассказывает Марсель Ибраев, CTO учебного центра Слёрм

Время на прочтение3 мин
Количество просмотров3K

18 октября на образовательной онлайн платформе Слёрм стартует новый курс: Мега – поток по популярной платформе оркестрации контейнеров с открытым исходным кодом Kubernetes. Программа курса максимально широкая – чуть более, чем за месяц участники освоят 12 тем, связанных с разворачиванием отказоустойчивого кластера и решением продвинутых задач по обеспечению стабильности и безопасности кластера и деплою приложений, узнают как Kubernetes работает изнутри, разберутся с тонкостями установки и конфигурации кластера и получат незаменимые практические навыки обращения с инфраструктурой.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Опыт работы с Apache Kafka: интервью с inDriver

Время на прочтение4 мин
Количество просмотров5.5K

DevOps-инженеры компании inDriver Радик Сейфуллин и Александр Плотников распилили старое монолитное приложение и создают новое, а Евгений Бутырин, технический редактор Слёрма, пообщался с ребятами об этом: опыте с Kafka, проблемах, решениях и обучении. 

Читать интервью
Всего голосов 8: ↑7 и ↓1+7
Комментарии0

Кто такой DevOps и почему это не то, что нам обещали

Время на прочтение8 мин
Количество просмотров10K

Спикер курса «Python для инженеров», Денис Наумов, поделился своим пониманием DevOps с двумя примерами из практики: собственной и коллег.

Читать статью
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

HTTP/3 от А до Я: основные концепции. Часть 1

Время на прочтение20 мин
Количество просмотров86K

image
Фото Florencia Viadana, Unsplash.com


После почти пятилетних разработок протокол HTTP/3 наконец приближается к окончательному выпуску. Предыдущие итерации уже доступны как экспериментальная функция, но в 2021 году мы ждём широкого распространения протокола. Что такое HTTP/3? Зачем выпускать его так рано после HTTP/2? Как его можно или нужно использовать? Как он влияет на производительность?

Читать дальше →
Всего голосов 79: ↑78 и ↓1+95
Комментарии48

Секреты observability. Часть 3: распределённая трассировка с Jaeger и OpenTelemetry

Время на прочтение8 мин
Количество просмотров18K

image
Фото Bertrand Bouchez, Unsplash.com


В прошлой статье мы с помощью Prometheus AlertManager настроили правила, чтобы отправлять уведомления через Slack при срабатывании алертов. И хотя алерты и уведомления — это удобно и полезно, сами по себе метрики не до конца объясняют проблему. Они просто показывают, что значения одного экземпляра вышли за установленные лимиты, но в распределённых системах метрики не могут отследить запрос, который проходит через несколько компонентов. С распространением микросервисов системы усложняются, поэтому мы должны проследить весь путь запроса, чтобы понять, что пошло не так. Для этого можно использовать распределённую трассировку, которая записывает действия, выполняемые в связи с запросом, и дает контекст, который мы не найдем в метриках и логах.


В этой статье мы расширим возможности observability (наблюдаемости) приложения — создадим спаны (span) и экспортируем их в распределённую опенсорс-систему Jaeger. Но сначала разберемся, что такое трейс.

Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Нюансы работы с PostgreSQL в 3 кейсах от DBA

Время на прочтение9 мин
Количество просмотров15K

Иван Чувашов, DBA Okko и Southbridge, поделился жизненными кейсами с PostgreSQL, которые помогут решить ваши проблемы.

Разберем случаи из PostgreSQL: запросы в статусе idle in transaction, выключенные контрольные суммы данных, переполнение int4, убивающие базу временные файлы и загрузку CPU.

Читать далее
Всего голосов 20: ↑20 и ↓0+20
Комментарии9

«Сайт падал на полторы минуты в сутки, но мы уже решили эту проблему». Итоги стажировки и онбординга нового инженера

Время на прочтение6 мин
Количество просмотров7.6K

image


Стажёрскую программу в Southbridge мы запустили три с половиной месяца назад, чтобы найти новых коллег и поделиться знаниями и опытом с теми, кому интересно развиваться в DevOps-направлении. За это время на стажировку было принято 54 начинающих инженера, большая часть из них ещё проходит программу. Первый поток завершен, в этом посте делимся итогами и историей Михаила Снеткова, который теперь работает в одной из команд Southbridge.


В первом потоке стажёрской программы участвовало девять специалистов. До конца дошло шесть. Михаил Снетков получил оффер в Southbridge, Александр Зольников — в Слёрм, еще три инженера получили офферы в другие компании во время стажировки.

Читать дальше →
Всего голосов 10: ↑7 и ↓3+7
Комментарии0

Миграция с Terraform на Terragrunt

Время на прочтение9 мин
Количество просмотров18K

В Bestmile мы используем Terraform для AWS IaC. Но чем больше развивалась наша инфраструктура, тем запутаннее становился код Terraform.

Код Terraform стало сложнее обслуживать. Он терял эффективность. Terraform — отличный инструмент, но нуждается в дополнениях. Здесь-то и пригодится Terragrunt.

Terragrunt — это обертка (wrapper) для Terraform, которая расширяет его функционал и устраняет некоторые ограничения. Terragrunt взаимодействует с Terraform с помощью кода HCL (HashiCorp Configuration Language), поэтому Terragrunt будет выполнять код Terraform в зависимости от того, как вы определите код HCL. Именно он дает дополнительные преимущества, как описано ниже, и превращает Terragrunt в волшебный инструмент.

Изучить код
Всего голосов 7: ↑7 и ↓0+7
Комментарии6

Секреты observability. Часть 1: метрики

Время на прочтение9 мин
Количество просмотров16K

image
Фото ETA+, Unsplash.com


Первые шаги в сторону observability — собираем метрики с Prometheus


Представьте себе человека, который бьется над решением загадки, а вокруг собралось с десяток советчиков, которые помогают ему «найти убийцу». Знакомая ситуация? В таких случаях возникает больше вопросов, чем ответов, и если отвечать на все эти вопросы, ни на что другое времени уже не останется.


Сложно найти то, чего не знаешь и не понимаешь. Вот тут-то на помощь и приходит observability (наблюдаемость). Она помогает понять, что сломалось или плохо работает, и даже позволяет найти причину, чтобы вы могли постоянно вносить улучшения.


Что такое observability


Под observability мы подразумеваем показатель того, насколько эффективно можно определить внутреннее состояние системы по ее выходным данным (телеметрии). Ничего нового в этом нет — мы пытаемся разобраться в работе приложений по логам с начала времен, но сейчас все осложняется облаками, контейнерами, микросервисами, многоязычными средами и т. д.


Три кита observability


Observability основана на трех главных компонентах. Это данные телеметрии, которые можно агрегировать и анализировать, чтобы понять состояние системы:


  1. Метрики.
  2. Трассировки.
  3. Логи.

В этой серии статей мы рассмотрим все три компонента с примерами. Начнем с метрик и опенсорс-проекта Prometheus.

Читать дальше →
Всего голосов 9: ↑8 и ↓1+8
Комментарии0

Пишем первый плейбук Ansible

Время на прочтение10 мин
Количество просмотров71K

Статья подготовлена на основе уроков из открытой темы "Установка LEMP стека с помощью Ansible" курса по Ansible от Слёрм. Автор – Всеволод Севостьянов, Lead Engineer в Vene.io (Affiliate marketing solution). Первые две темы курса доступны на Youtube.

Материал этого урока будет интересен тем, кто разобрался с установкой Ansible и готов написать свой первый плейбук. Результатом будет плейбук, устанавливающий nginx на удалённой машине.

Читать далее
Всего голосов 13: ↑12 и ↓1+13
Комментарии5

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность