Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Chaos Engineering: искусство умышленного разрушения. Часть 1

Блог компании Флант Тестирование IT-систем *Системное администрирование *Тестирование веб-сервисов *DevOps *
Перевод
Прим. перев.: Рады поделиться переводом замечательного материала от старшего технологического евангелиста из AWS — Adrian Hornsby. В простых словах он объясняет важность экспериментов, призванных смягчить последствия сбоев в ИТ-системах. Вы, наверное, уже слышали про Chaos Monkey (или даже применяли подобные решения)? На сегодняшний день подходы к созданию подобных инструментов и их реализация в более широком контексте осуществляются в рамках деятельности, которую называют chaos engineering. Подробнее о ней читайте в этой статье.



«Но за всей этой красотой скрывается хаос и безумие». — Tanner Walling

Пожарные. Эти высококвалифицированные специалисты каждый день рискуют жизнью, борясь с огнем. Знаете ли вы, что перед тем, как стать пожарным, необходимо провести в тренировках минимум 600 часов? И это только начало. Согласно отчетам, пожарные тренируются до 80% своего рабочего времени.

Почему?

Всего голосов 43: ↑42 и ↓1 +41
Просмотры 22K
Комментарии 3

Chaos Engineering: искусство умышленного разрушения. Часть 2

Блог компании Флант Тестирование IT-систем *Системное администрирование *Тестирование веб-сервисов *DevOps *
Перевод
Прим. перев.: Этот материал продолжает замечательный цикл статей от технологического евангелиста из AWS — Adrian Hornsby, — задавшегося целью просто и понятно объяснить важность экспериментов, призванных смягчить последствия сбоев в ИТ-системах.



«Если провалил подготовку плана, то планируешь провал». — Бенджамин Франклин

В первой части данной серии статей я представил концепцию chaos engineering'а и объяснил, как он помогает находить и исправлять изъяны в системе до того, как они приведут к сбоям production. Также было рассказано о том, как хаос-инжиниринг способствует позитивным культурным изменениям внутри организаций.

В конце первой части я пообещал рассказать об «инструментах и способах внедрения сбоев в системы». Увы, у моей головы на сей счет имелись собственные планы, и в этой статье я попытаюсь ответить на самый популярный вопрос, возникающий и людей, желающих заняться хаос-инжинирингом: Что ломать в первую очередь?
Читать дальше →
Всего голосов 24: ↑24 и ↓0 +24
Просмотры 5.9K
Комментарии 0

Chaos Engineering: искусство умышленного разрушения. Часть 3

Блог компании Флант Тестирование IT-систем *
Перевод
Прим. перев.: Это продолжение цикла статей от технологического евангелиста из AWS (Adrian Hornsby) про довольно новую ИТ-дисциплину — chaos engineering, — в рамках которой инженеры проводят эксперименты, призванные смягчить последствия сбоев в системах. Первый материал этого цикла рассказывал про концепцию chaos engineering в целом, второй — о том, как эта деятельность способствует позитивным культурным изменениям внутри организаций.



Последний материал посвящён практике хаос-инжиниринга: методам экспериментирования и инструментам для их непосредственной реализации. Несмотря на то, что его перевод уже публиковался на днях на хабре, у нас готова своя версия, которая кажется нам качественной и по-прежнему уместной для размещения. Так весь цикл перевода этих статей был представлен в едином стиле и наши подписчики — читатели прошлых частей — увидят его полностью.
Читать дальше →
Всего голосов 33: ↑32 и ↓1 +31
Просмотры 6.1K
Комментарии 0

Хаос-инжиниринг, часть 3: Методы и инструменты

Блог компании Southbridge Системное администрирование *Серверное администрирование *Софт
Перевод


Мы становимся тем, что мы лицезреем. Сначала мы формируем инструменты, потом инструменты формируют нас.

—Маршал Маклюэн

Хотелось бы искренне поблагодарить и выразить признательность моему хорошему другу Рикардо Суэйрасу за его обзор, вклад и за то, что не давал мне бросить эту статью недописанной. Рикардо, ты просто легенда!


Важно помнить, что хаос-инжиниринг — это не когда выпускаешь на свободу мартышек и без разбору вводишь отказы. Хаос-инжиниринг — это четко определенная, формализованная методика экспериментирования.

Читать дальше →
Всего голосов 19: ↑16 и ↓3 +13
Просмотры 2.7K
Комментарии 1

Обзор инструментов для chaos engineering в Kubernetes. Часть 1: kube-monkey, chaoskube, Chaos Mesh

Блог компании Флант Системное администрирование *DevOps *Kubernetes *


Хаос-инжиниринг для Kubernetes становится всё популярнее, и это закономерно: ведь такая инфраструктура создавалась быть готовой к тому, чтобы в любой момент что-нибудь «отстрелило». А значит — это замечательное свойство надо проверять в реальных проектах.

Благо, уже сегодня можно найти не одно Open Source-решение, помогающее в подобных экспериментах. Представляем вашему вниманию их обзор. Он получился весьма объёмным, поэтому был разбит на две части: в этой мы рассмотрим три популярных проекта.
Читать дальше →
Всего голосов 48: ↑48 и ↓0 +48
Просмотры 4.6K
Комментарии 0

Обзор инструментов для chaos engineering в Kubernetes. Часть 2: Litmus Chaos, Chaos Toolkit, KubeInvaders и другие

Блог компании Флант Системное администрирование *DevOps *Kubernetes *


Это вторая и заключительная часть знакомства с доступными сегодня Open Source-утилитами для организации хаос-инжиниринга в Kubernetes-кластерах. В первой статье было вкратце рассказано о появлении самой дисциплины — chaos engineering, — а также рассмотрены kube-monkey, chaoskube и Chaos Mesh. Теперь этот список пополнится обзором Litmus Chaos, Chaos Toolkit, мини-подборкой из хаос-игр и перечислением пяти других вариантов, заслуживающих внимания инженеров, заинтересованных в разовой или постоянной проверке своей инфраструктуры на устойчивость.
Читать дальше →
Всего голосов 38: ↑38 и ↓0 +38
Просмотры 2K
Комментарии 2

Как Netflix поддерживает надежность сервиса: ограничение нагрузки на основе приоритетов

Блог компании OTUS Высокая производительность *Серверное администрирование *
Перевод

Застрять в пробке — нет ничего хуже для любого водителя в мире. Движение замедляется до скорости черепахи, зачастую из-за какой-то ерунды или вообще без причины. Мы, инженеры из Netflix, постоянно ищем способы улучшения управления трафиком — в нашем случае сетевым, — но представим на минуту, что мы управляем уличным движением. Что если бы мы знали, насколько важно проехать тому или иному водителю, и могли бы выборочно обеспечивать движение отдельных машин, вместо того, чтобы заставлять ждать всех?

Сотрудники технических подразделений Netflix стремятся сделать так, чтобы сервис Netflix работал всегда, когда он вам нужен. И все же, еще совсем недавно (буквально в прошлом году) в наших системах регулярно возникали «пробки». У нас были автоматические выключатели, но не было прогрессивного способа ограничения нагрузки. Задавшись целью улучшить опыт наших подписчиков, мы внедрили прогрессивное ограничение нагрузки на основе приоритизации запросов.

В приведенной ниже анимации демонстрируется работа интерфейса Netflix, используемого зрителями, когда серверные системы регулируют трафик с учетом приоритета. Запросы с низким приоритетом отбрасываются, но воспроизведение идет без перебоев, поэтому зрители могут наслаждаться любимым сериалом. Давайте разберемся, как мы смогли этого добиться.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 2.8K
Комментарии 0

Хаос на практике: зачем ломать production?

Блог компании ДомКлик Тестирование IT-систем *Системное администрирование *DevOps *

Всем привет! Меня зовут Олег Сидоренков, и я отвечаю за IT-инфраструктуру в компании ДомКлик.

Ломать — не строить! Так обычно говорят люди, пытаясь показать деструктивный процесс простым, не требующим усилий. Сегодня я хочу вам рассказать о пользе Chaos Engineering (хаос-инженерия), зачем это нужно, и приведу несколько примеров из личного опыта.

Читать далее
Всего голосов 31: ↑31 и ↓0 +31
Просмотры 5.5K
Комментарии 0