Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

19 марта запустится практический курс для системных администраторов Linux от Mail.ru Group

Блог компании VK Системное администрирование **nix *


Мы запускаем практический учебный курс для будущих системных администраторов Linux, инженеров доступности сервисов (SRE). Это будет квест, во время которого вы получите хорошую базовую подготовку, а также сможете проверить себя в условиях, максимально приближенных к реальным.

Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 7.9K
Комментарии 3

16 апреля, в 19 часов (MSK) состоится онлайн-встреча сообщества DevOps-40: HR Talks

DevOps *


Друзья, добро пожаловать на сессию бесед с HR-partner, работающими со специалистами по SRE и DevOps. Разговор про рынки вакансий, про изменение условий работы в связи с карантином. Анастасия и Анжелика готовы ответить на любые вопросы, а так же дать советы, касающиеся поиска работы, прохождения интервью в русских и зарубежных кампаниях.

Вы можете задать DevOps-HR интересующие вас вопросы прямо сейчас в нашем телеграм чате в devops40discuss, указывайте к вопросам хэштег #вопросhr и подключайтесь к трансляции в www.twitch.tv/devops40
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 918
Комментарии 0

Вебинар: Как организовать DevOps/SRE команду, избежать выгорания и управлять инцидентами при помощи Amixr

Блог компании Proto Высокая производительность *Системное администрирование *IT-инфраструктура *DevOps *

За последний год Amixr провели несколько десятков интервью со своими пользователями и дежурными инженерами из таких компаний, как Google, Facebook, Dropbox, SoundCloud, чтобы получить инсайты о том, что же такое эффективный инцидент-менеджмент. Кроме того, через инфраструктуру Amixr проходят более трехсот тысяч инцидентов ежемесячно.

Всю эту информацию и собственный опыт Amixr и Proto собрали в едином вебинаре в эту среду, 09 декабря в 16:00. Для участия достаточно пройти быструю регистрацию.

Посмотреть программу
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 779
Комментарии 0

Интенсив по SRE 21–23 мая в Москве

Блог компании Southbridge Программирование *IT-инфраструктура *Карьера в IT-индустрии DevOps *


Внедрить SRE-подход, когда в команде нет опытного SRE-специалиста получается только через пробы и ошибки. Чтобы такие ошибки не стоили дорого, можно перенять опыт коллег из других компаний. Приглашаем на интенсив по SRE 21–23 мая 2021 года.


Формат интенсива: офлайн или онлайн на выбор.

Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 642
Комментарии 0

Сотрудник Google уволен за нарушение приватности

IT-компании
Мы доверяем Google личные данные и надеемся, что компания обеспечит максимальную конфиденциальность. На самом деле она не может. Даже несмотря на титаническую работу Google по отсеву потенциальных кандидатов, среди 20 тыс. сотрудников обязательно найдётся «паршивая овца».

Программист Google в течение нескольких месяцев шпионил за пользователями Gmail и Google Voice, прежде чем его обнаружили. Сегодня компания официально подтвердила этот факт и признала проблемы в обеспечении конфиденциальной информации.

27-летний Дэвид Берксдейл (David Barksdale) был уволен в июле 2010 года. Он занимал должность Site Reliability Engineer (SRE) и имел неограниченный доступ к аккаунтам пользователей.
Читать дальше →
Всего голосов 132: ↑122 и ↓10 +112
Просмотры 4.2K
Комментарии 151

Почему мы уверены в том, что развернули

Настройка Linux *IT-инфраструктура **nix *DevOps *Puppet *
image
Часто бывает, когда что-то не работает. И никто не хочет, чтобы что-то не работало по его вине. В контексте больших инфраструктур и распределенных приложений ошибка конфигурации может быть фатальной.

В статье я покажу как правильно тестировать окружение для приложения, какие инструменты использовать, приведу примеры удачного и целесообразного тестирования.

Статья будет интересна командам, которые практикуют DevOps или SRE, ответственным Dev, и прочим хорошим людям.
Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Просмотры 12K
Комментарии 9

7 привычек успешных Site Reliability Engineers (по версии New Relic)

Блог компании Флант Карьера в IT-индустрии
Перевод
Прим. перев.: Это перевод статьи из блога компании New Relic, где на протяжении года публикуются подобные материалы о разных ИТ-специализациях, связанных с разработкой и эксплуатацией программного обеспечения. Автором является Kevin Casey — независимый журналист и обладатель премии Azbee Award, который пишет для различных изданий и компаний (включая Red Hat).



В недавней публикации мы рассмотрели восхождение Site Reliability Engineer в современных организациях, занимающихся программным обеспечением. Но называться SRE — одно дело, а нам же хотелось бы ещё узнать, что требуется для того, чтобы преуспеть в этой должности.
Читать дальше →
Всего голосов 17: ↑12 и ↓5 +7
Просмотры 14K
Комментарии 6

Интервью портала A Cloud Guru с Келси Хайтауэром: о DevOps, Kubernetes и serverless

Блог компании FUNCORP Облачные вычисления *Amazon Web Services *DevOps *Google Cloud Platform *
Перевод

image


Наверняка не все знают, что по нагрузке и числу пользователей iFunny является настоящим highload-сервисом. API обслуживает в пиках порядка 15000 запросов в секунду, система аналитики обрабатывает около 5 миллиардов событий в сутки, а для поддержки полного функционала работает до 400 инстансов EC2. Поэтому для приложения очень важно иметь сильную команду инженеров. Чтобы решать типичные проблемы высоконагруженных систем и улучшать свою работу каждый день, команда iFunny постоянно ищет новые инструменты и решения. И в этот раз невозможно было пройти мимо интервью одного из основных контрибьюторов мирового IT-сообщества — Келси Хайтауэра. Достойно перевода и вашего внимания.

Всего голосов 19: ↑18 и ↓1 +17
Просмотры 6K
Комментарии 0

Что мы читали в марте: пять необходимых книг для инженеров инфраструктуры

Блог компании Skyeng Профессиональная литература Читальный зал DevOps *


Мы в Skyeng понемногу строим свою библиотеку важных и полезных книг. Началось все с того, что своими списками в Фейсбуке поделились основатели компании (ссылки ниже), а теперь к ним присоединились и руководители направлений. В марте свой топ профессиональной литературы представила Надежда Рябцова, отвечающая за нашу IT инфраструктуру. Я попросил ее рассказать о каждой книге чуть подробнее – надеюсь, читателям Хабры этот список, дополненный четырьмя еженедельными рассылками, будет полезен.
Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 11K
Комментарии 8

Надёжность World of Tanks Server

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *DevOps *

Сегодняшняя тема — надежность World of Tanks Server — достаточно скользкая. Надежность игры — это trade off, потому в разработке игр все нужно делать быстро и быстро изменяться. Нагрузка на серверы большая, а пользователи склонны что-нибудь поломать просто из интереса. Левон Авакян на РИТ++ рассказал, что в Wargaming делают для обеспечения надежности.


Обычно, когда говорят про надежность, все время упоминают мониторинги, нагрузочное тестирование и прочее. В этом нет ничего сверхъестественного, а доклад был посвящен моментам специфичным именно для Танков.




О спикере: Левон Авакян работает в компании Wargaming в должности Head of WoT Game Services and Reliability и занимается проблемами надежности танкового сервера.


Всего голосов 47: ↑44 и ↓3 +41
Просмотры 18K
Комментарии 11

Google и DevOps: две книги про SRE

Блог компании Google Developers DevOps *
Первые десять лет в Гугле я работал обычным инженером: запускал на картах общественный транспорт, улучшал поиск и отлавливал спам в ютьюбе. В какой-то момент обнаружилось, что по соседству с командами SWE (Software Engineers) существуют какие-то загадочные SRE (Site Reliability Engineers), которые живут в продакшене и всё знают про инфраструктуру, конфиги и мониторинг. Обычно они приходили к нам с непонятными графиками и настойчиво рекомендовали что-нибудь переписать в нашем сервисе, чтобы он взрывался аккуратно и по кусочкам, а не целиком и вместе со всеми соседями. Или строили какой-нибудь кусок инфраструктуры, волшебным образом решающий все наши проблемы раз и навсегда. Или сообщали, что второго релиза на этой неделе не будет, потому что один датацентр смыло ураганом, а рядом с другим хоронили лошадь и перерубили магистральный кабель. Через некоторое время стало понятно, что к этим людям можно приходить с самыми разнообразными проблемами, и уходить с решениями, найденными парой уровней абстракции ниже, чем ты ожидаешь от своего собственного продукта («вы, конечно, заплатили за нужный объем трафика, но вот здесь он у вас тупо не влезает в свитч, стоящий наверху стойки»).

В итоге мне стало интересно, как выглядит всё это SRE изнутри, и я подался в Mission Control – программу ротации, позволяющую провести полгода в роли SRE, получить ценного production-опыта и, при желании, вернуться в свою прежнюю команду делиться приобретёнными знаниями. Я вместо этого остался, как и две трети моих нынешних коллег по Video Processing SRE, тоже переквалифицировавшихся из обычных инженеров. Теперь я сам пугаю SWE непонятными графиками и эвакуирую ютьюбные видео из горящих датацентров, с перерывами на мирный созидательный кодинг. Оказалось, что за пятнадцать лет внутри Гугла выросла здоровая и эффективная SRE-организация со своими практиками, принципами и методами – но о них никто не знает, потому что из тех кто попадал туда, еще никто не возвращался назад.
Читать дальше →
Всего голосов 26: ↑26 и ↓0 +26
Просмотры 20K
Комментарии 11

Почему важна SRE документация. Ч. 1

Блог компании OTUS DevOps *
Перевод
Всем добрый вечер!

Интенсивность запусков у нас меняется от месяца к месяцу. Не успели сентябрьские студенты закончить второй месяц курса «Devops — практики и инструменты», как у нас открывается следующий поток. Так что мы снова готовы делиться с вами полезными материалами по теме и ждём на не менее полезных открытых уроках.

Сегодня мы рассмотрим первую часть статьи о том как документация позволяет SRE-командам управлять новыми и существующими сервисами.

SRE (site reliability engineering, примерно переводится как “обеспечение надежности информационных систем”, специалисты этой сферы носят ту же аббревиатуру) — особая дисциплина, мышление и набор технических подходов, направленных на обеспечение безотказной работы веб-продуктов и сервисов. SRE находятся на стыке разработки ПО и системной инженерии, решают эксплуатационные задачи и разрабатывают масштабируемые, надежные и эффективные решения для проектирования, создания и эксплуатации крупномасштабных распределенных систем.

Основные задачи SRE:

Читать дальше →
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 4.2K
Комментарии 1

Почему важна SRE документация. Ч. 2

Блог компании OTUS DevOps *
Перевод
Всем добрый вечер!

Вот и осталось всего ничего (то есть один день) до запуска потока курса «DevOps практики и инструменты», а значит нам надо успеть за это время довыложить оставшиеся части статьи «Почему важна SRE документация».

Продолжаем.

Документы для Онбординга Нового Сервиса

SRE проводят PRR (production readiness review, обзор готовности производства) для проверки соответствия сервиса стандартам операционной готовности, а также чтобы убедиться, что владельцы сервиса понимают, как пользоваться знаниями SRE для управления большими системами.

Сервису необходимо пройти эту проверку до запуска в продакшн. (До запуска его поддерживают не SRE, а сама команда разработки.) Цель PRR на данном этапе — убедиться, что сервис будет удовлетворять минимальным стандартам надежности на момент запуска.

Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 2.8K
Комментарии 0

Несем DevOps в массы

Блог компании Конференции Олега Бунина (Онтико) Системное администрирование *IT-инфраструктура *Конференции DevOps *
«Нужно активнее нести DevOps в массы», — решили мы в прошлом году, провели масштабный ребрендинг RootConf и запустили DevOpsConf, как место, где инженеры смогли обсудить множество насущных проблем и посмотреть на то, что же творится вокруг, чем живут в близких областях, как выходят из похожих, но все же отличных ситуаций. Нам удалось собрать классную программу и, что еще важнее, аудиторию профессионалов, которым боли и их решения были нужны и понятны.

Что ж, не будем останавливаться на достигнутом — продолжим продвижение подхода интеграции процессов разработки, тестирования и эксплуатации уже в мае на РИТ++.


Поскольку DevOps в нашем понимании — это про объединение всех процессов разработки, то фестиваль конференций РИТ++, в котором участвуют и серверные и клиентские разработчики, и управленцы разных уровней, люди, выстраивающие бизнес-процессы, и многие другие специалисты IT, — самое место, чтобы говорить о DevOps.
Всего голосов 28: ↑27 и ↓1 +26
Просмотры 5.2K
Комментарии 0

«Надежность и безотказность как в Google» — и не только: перевод статьи «Расчёт надёжности сервиса»

Блог компании ITSumma Системное администрирование *Анализ и проектирование систем *IT-инфраструктура *DevOps *
Перевод
image

Главная задача коммерческих (да и некоммерческих тоже) сервисов — быть всегда доступными для пользователя. Хотя сбои случаются у всех, вопрос в том, что делает IT-команда для их минимизации. Мы перевели статью Бена Трейнора, Майка Далина, Вивек Рау и Бетси Бейер «Расчёт надёжности сервиса», в которой рассказывается, в том числе, на примере Google, почему 100% — неверный ориентир для показателя надежности, что такое «правило четырёх девяток» и как на практике математически прогнозировать допустимость крупных и мелких отключений сервиса и\или его критических компонентов — ожидаемое количество простоя, время обнаружения сбоя и время восстановления сервиса.
Читать дальше →
Всего голосов 29: ↑28 и ↓1 +27
Просмотры 11K
Комментарии 4

Почему важна SRE документация. Ч. 3

Блог компании OTUS DevOps *
Перевод
Всем добрый вечер! Спешим поделиться новостью о том, что уже в феврале у нас запускается новый поток по курсу «Devops — практики и инструменты», а это значит, что пора закончить начатое и опубликовать третью часть статьи: «Почему важна SRE документация». Поехали!

Документы для управления командами SRE

Командам SRE для эффективной работы необходима надежная и доступная документация.

Сайт команды

Примечание: Вместо сайта можно использовать отдельный спейс или раздел в Confluence/Wiki.

Сайт команды важен тем, что обеспечивает координацию информации и документации, связанной с командой SRE и ее проектами. Например в Google, многие команды SRE используют g3doc (внутренняя платформа документирования Google, где доки живут в исходном коде вместе со связанным кодом), а некоторые команды используют g3doc и Google Sites: в таком случае страницы g3doc тесно связаны с кодом/деталями реализации.

Устав команды



Команды SRE должны должны поддерживать опубликованный устав, в котором описываются мотивы работы и документируется текущая вовлеченность. Устав необходим для установления идентичности, основных целей и значения команды в рамках всей компании.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Просмотры 2K
Комментарии 0

5-6 причин прийти на GolangConf

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *Разработка веб-сайтов *Go *Конференции
Если вы бывали на HighLoad++, то знаете о традиционном митапе по Go. Активисты, интересующиеся Go, занимали зал на пару часов, представляли небольшие доклады, обсуждали насущные темы, холиварили. Были на HighLoad++ и отдельные доклады по Go.

Теперь, нам кажется, что пора выходить на новый уровень, поэтому 7 октября мы проведем GolangConf. Из названия понятно, что это конференция про Go, но этого явно недостаточно.



Мы готовим эту конференцию для:

  • Go-разработчиков — тех, кто уже давно сидит на Go, кому интересно обсудить новинки, поговорить о производительности и «кишках», узнать, что меняется в Go, похоливарить о дженериках, например.
  • Кроме того, поскольку Go-общество расширяется, мы ждем программистов, которые только-только переходят на Go или даже только подумывают об этом. Покажем им истории успеха, реализовавшегося с переходом на Go, или истории провала. Узнаем, что не получается, почему, какие их первые чувства, мнения, впечатления.
  • Третья категория посетителей — пользователи инструментов, написанных на Go. Это популярные в рамках Cloud Native инфраструктур: Kubernetes, Docker, Terraform, Consul и другие продукты Hashicorp. На Go-конференции гости, с одной стороны, узнают, какие у этих инструментов есть проблемы, связанные с особенностями языка, а с другой — увидят, какие в Go есть вызовы и задачи, чтобы начать, например, контрибьютить в эти проекты.

Чтобы определить, какие именно темы нужно обсудить на конференции по Go, какие проблемы и задачи важны для каждой из категорий слушателей, мы собрали Программный комитет и активистов Go-сообщества. Устроили своего рода мозговой штурм. Результатами делимся с вами и, поскольку главная наша цель — развивать сообщество, надеемся на ваш отклик. Напишите в комментариях, что нужно раскрыть полнее, что совсем неинтересно, а что именно то что нужно. Посоветуйте, например, стоит ли обсуждать особенности эксплуатации Go под Windows, а то мнения разделились.
Читать дальше →
Всего голосов 38: ↑33 и ↓5 +28
Просмотры 4.1K
Комментарии 0

Конференция для фанатов DevOps-подхода

Блог компании Конференции Олега Бунина (Онтико) Системное администрирование *Конференции DevOps *
Речь, конечно, о DevOpsConf. Если не вдаваться в детали, то 30 сентября и 1 октября мы проведем конференцию об объединении процессов разработки, тестирования и эксплуатации, а если вдаваться — прошу под кат.

В рамках DevOps-подхода все части технологического развития проекта переплетены между собой, происходят параллельно и влияют друг на друга. Особую значимость здесь приобретает создание автоматизируемых процессов разработки, которые можно менять, моделировать и тестировать в реальном времени. Это помогает моментально реагировать на изменения в рынке.

На конференции мы хотим показать, как влияет такой подход на развитие продукта. Как обеспечивается надежность и адаптивность системы для клиента. Как DevOps меняет структуру и подход компании к организации рабочего процесса.


Всего голосов 28: ↑27 и ↓1 +26
Просмотры 4.6K
Комментарии 0

Сисадмины, сегодня наш день

Блог компании VK Карьера в IT-индустрии Офисы IT-компаний
В этот день мы сняли для вас тёплое ламповое видео, в котором наши сисадмины рассказали о своей работе: про то, что им интересно, что вдохновляет, какие у нас есть талисманы. Мы такие же люди как и все, конечно же, мы живем не только работой, у нас остается свободное время на различные хобби, про это мы тоже рассказали и показали.


А под катом вы найдете небольшой рассказ о нашей работе и о том, чем занимаемся.
Ну, с праздником!
Всего голосов 46: ↑42 и ↓4 +38
Просмотры 6.5K
Комментарии 8

Эпос о системных администраторах как вымирающем виде

Блог компании Dodo Engineering Системное администрирование *Программирование *IT-инфраструктура *
Системные администраторы всего мира, поздравляем вас с профессиональным праздником!

У нас системных администраторов не осталось (ну почти). Однако предание о них еще свежо. В честь праздника мы подготовили этот эпос. Устраивайтесь поудобней, дорогие читатели.


Читать дальше →
Всего голосов 37: ↑24 и ↓13 +11
Просмотры 18K
Комментарии 39