Как стать автором
Обновить

Chaos Engineering: искусство умышленного разрушения. Часть 1

Время на прочтение 15 мин
Количество просмотров 32K
Блог компании Флант Тестирование IT-систем *Системное администрирование *Тестирование веб-сервисов *DevOps *
Перевод
Прим. перев.: Рады поделиться переводом замечательного материала от старшего технологического евангелиста из AWS — Adrian Hornsby. В простых словах он объясняет важность экспериментов, призванных смягчить последствия сбоев в ИТ-системах. Вы, наверное, уже слышали про Chaos Monkey (или даже применяли подобные решения)? На сегодняшний день подходы к созданию подобных инструментов и их реализация в более широком контексте осуществляются в рамках деятельности, которую называют chaos engineering. Подробнее о ней читайте в этой статье.



«Но за всей этой красотой скрывается хаос и безумие». — Tanner Walling

Пожарные. Эти высококвалифицированные специалисты каждый день рискуют жизнью, борясь с огнем. Знаете ли вы, что перед тем, как стать пожарным, необходимо провести в тренировках минимум 600 часов? И это только начало. Согласно отчетам, пожарные тренируются до 80% своего рабочего времени.

Почему?

Всего голосов 43: ↑42 и ↓1 +41
Комментарии 3

Chaos Engineering: искусство умышленного разрушения. Часть 2

Время на прочтение 8 мин
Количество просмотров 7K
Блог компании Флант Тестирование IT-систем *Системное администрирование *Тестирование веб-сервисов *DevOps *
Перевод
Прим. перев.: Этот материал продолжает замечательный цикл статей от технологического евангелиста из AWS — Adrian Hornsby, — задавшегося целью просто и понятно объяснить важность экспериментов, призванных смягчить последствия сбоев в ИТ-системах.



«Если провалил подготовку плана, то планируешь провал». — Бенджамин Франклин

В первой части данной серии статей я представил концепцию chaos engineering'а и объяснил, как он помогает находить и исправлять изъяны в системе до того, как они приведут к сбоям production. Также было рассказано о том, как хаос-инжиниринг способствует позитивным культурным изменениям внутри организаций.

В конце первой части я пообещал рассказать об «инструментах и способах внедрения сбоев в системы». Увы, у моей головы на сей счет имелись собственные планы, и в этой статье я попытаюсь ответить на самый популярный вопрос, возникающий и людей, желающих заняться хаос-инжинирингом: Что ломать в первую очередь?
Читать дальше →
Всего голосов 24: ↑24 и ↓0 +24
Комментарии 0

Chaos Engineering: искусство умышленного разрушения. Часть 3

Время на прочтение 19 мин
Количество просмотров 7.4K
Блог компании Флант Тестирование IT-систем *
Перевод
Прим. перев.: Это продолжение цикла статей от технологического евангелиста из AWS (Adrian Hornsby) про довольно новую ИТ-дисциплину — chaos engineering, — в рамках которой инженеры проводят эксперименты, призванные смягчить последствия сбоев в системах. Первый материал этого цикла рассказывал про концепцию chaos engineering в целом, второй — о том, как эта деятельность способствует позитивным культурным изменениям внутри организаций.



Последний материал посвящён практике хаос-инжиниринга: методам экспериментирования и инструментам для их непосредственной реализации. Несмотря на то, что его перевод уже публиковался на днях на хабре, у нас готова своя версия, которая кажется нам качественной и по-прежнему уместной для размещения. Так весь цикл перевода этих статей был представлен в едином стиле и наши подписчики — читатели прошлых частей — увидят его полностью.
Читать дальше →
Всего голосов 33: ↑32 и ↓1 +31
Комментарии 0

Хаос-инжиниринг, часть 3: Методы и инструменты

Время на прочтение 17 мин
Количество просмотров 3.4K
Блог компании Southbridge Системное администрирование *Серверное администрирование *Софт
Перевод


Мы становимся тем, что мы лицезреем. Сначала мы формируем инструменты, потом инструменты формируют нас.

—Маршал Маклюэн

Хотелось бы искренне поблагодарить и выразить признательность моему хорошему другу Рикардо Суэйрасу за его обзор, вклад и за то, что не давал мне бросить эту статью недописанной. Рикардо, ты просто легенда!


Важно помнить, что хаос-инжиниринг — это не когда выпускаешь на свободу мартышек и без разбору вводишь отказы. Хаос-инжиниринг — это четко определенная, формализованная методика экспериментирования.

Читать дальше →
Всего голосов 19: ↑16 и ↓3 +13
Комментарии 1

Обзор инструментов для chaos engineering в Kubernetes. Часть 1: kube-monkey, chaoskube, Chaos Mesh

Время на прочтение 11 мин
Количество просмотров 6.5K
Блог компании Флант Системное администрирование *DevOps *Kubernetes *


Хаос-инжиниринг для Kubernetes становится всё популярнее, и это закономерно: ведь такая инфраструктура создавалась быть готовой к тому, чтобы в любой момент что-нибудь «отстрелило». А значит — это замечательное свойство надо проверять в реальных проектах.

Благо, уже сегодня можно найти не одно Open Source-решение, помогающее в подобных экспериментах. Представляем вашему вниманию их обзор. Он получился весьма объёмным, поэтому был разбит на две части: в этой мы рассмотрим три популярных проекта.
Читать дальше →
Всего голосов 48: ↑48 и ↓0 +48
Комментарии 0

Обзор инструментов для chaos engineering в Kubernetes. Часть 2: Litmus Chaos, Chaos Toolkit, KubeInvaders и другие

Время на прочтение 11 мин
Количество просмотров 3.2K
Блог компании Флант Системное администрирование *DevOps *Kubernetes *


Это вторая и заключительная часть знакомства с доступными сегодня Open Source-утилитами для организации хаос-инжиниринга в Kubernetes-кластерах. В первой статье было вкратце рассказано о появлении самой дисциплины — chaos engineering, — а также рассмотрены kube-monkey, chaoskube и Chaos Mesh. Теперь этот список пополнится обзором Litmus Chaos, Chaos Toolkit, мини-подборкой из хаос-игр и перечислением пяти других вариантов, заслуживающих внимания инженеров, заинтересованных в разовой или постоянной проверке своей инфраструктуры на устойчивость.
Читать дальше →
Всего голосов 38: ↑38 и ↓0 +38
Комментарии 2

Как Netflix поддерживает надежность сервиса: ограничение нагрузки на основе приоритетов

Время на прочтение 8 мин
Количество просмотров 3.1K
Блог компании OTUS Высокая производительность *Серверное администрирование *
Перевод

Застрять в пробке — нет ничего хуже для любого водителя в мире. Движение замедляется до скорости черепахи, зачастую из-за какой-то ерунды или вообще без причины. Мы, инженеры из Netflix, постоянно ищем способы улучшения управления трафиком — в нашем случае сетевым, — но представим на минуту, что мы управляем уличным движением. Что если бы мы знали, насколько важно проехать тому или иному водителю, и могли бы выборочно обеспечивать движение отдельных машин, вместо того, чтобы заставлять ждать всех?

Сотрудники технических подразделений Netflix стремятся сделать так, чтобы сервис Netflix работал всегда, когда он вам нужен. И все же, еще совсем недавно (буквально в прошлом году) в наших системах регулярно возникали «пробки». У нас были автоматические выключатели, но не было прогрессивного способа ограничения нагрузки. Задавшись целью улучшить опыт наших подписчиков, мы внедрили прогрессивное ограничение нагрузки на основе приоритизации запросов.

В приведенной ниже анимации демонстрируется работа интерфейса Netflix, используемого зрителями, когда серверные системы регулируют трафик с учетом приоритета. Запросы с низким приоритетом отбрасываются, но воспроизведение идет без перебоев, поэтому зрители могут наслаждаться любимым сериалом. Давайте разберемся, как мы смогли этого добиться.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 0

Хаос на практике: зачем ломать production?

Время на прочтение 6 мин
Количество просмотров 6.1K
Блог компании Домклик Тестирование IT-систем *Системное администрирование *DevOps *

Всем привет! Меня зовут Олег Сидоренков, и я отвечаю за IT-инфраструктуру в компании ДомКлик.

Ломать — не строить! Так обычно говорят люди, пытаясь показать деструктивный процесс простым, не требующим усилий. Сегодня я хочу вам рассказать о пользе Chaos Engineering (хаос-инженерия), зачем это нужно, и приведу несколько примеров из личного опыта.

Читать далее
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 0

Chaos engineering: Начало

Время на прочтение 4 мин
Количество просмотров 3.3K
Системное администрирование *DevOps *Облачные сервисы *Инженерные системы *
Из песочницы

Всем привет!

Как показала практика от сбоев в IT системах никто не застрахован, даже у мамонтов индустрии. А убытки от простоев, после таких событий, достигают заоблачных цифр. К примеру, простои от последних событий для Facebook обошлись в миллиарды долларов.

Сбои неизбежны – это факт, но когда – это вопрос. Компаниям нужны решения здесь и сейчас, и эти решения предлагает молодое направление в IT – Chaos Enginering.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 9

Пробуем Chaos Mesh, или Гармония хаоса и есть порядок

Время на прочтение 11 мин
Количество просмотров 2.8K
Блог компании Флант Open source *Системное администрирование *DevOps *Kubernetes *
✏️ Технотекст 2022

В продолжение наших статей про Chaos Engineering расскажу про недавний опыт проверки на прочность приложений в кластере Kubernetes с помощью Open Source-оператора Chaos Mesh.

Читать далее
Всего голосов 30: ↑28 и ↓2 +26
Комментарии 2

Взять и собрать «мусор» в облаке — несколько open source решений, которые с этим помогут

Время на прочтение 4 мин
Количество просмотров 2.5K
Блог компании CloudMTS Open source *Системное администрирование *Облачные сервисы *Kubernetes *
image

Если компания активно тестирует гипотезы и запускает новые прототипы, в облаке могут накапливаться «забытые» сервисы, которые продолжают потреблять ресурсы. Есть open source инструменты, которые автоматически находят и удаляют неиспользуемые инстансы в такой инфраструктуре. Обсудим возможности и предпосылки к использованию подобных решений.
Читать дальше →
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 3

Как внести Хаос в свой кластер k8s, и почему гении властвуют над Хаосом?

Время на прочтение 8 мин
Количество просмотров 2.4K
Блог компании Nixys Информационная безопасность *DevOps *Kubernetes *

Кто-нибудь из вас когда-нибудь слышал о теории “Чёрный лебедь”? Если говорить вкратце, то данная теория рассматривает труднопрогнозируемые события, которые несут за собой огромные последствия для всей системы. К примеру, ваш кластер k8s располагается в ДЦ в конкретно взятом регионе. Всё было прекрасно, но с берега пришло цунами и его затопило, вследствие чего все сервера стали недоступны и ваше приложение не работает. Так кто же в этом будет виноват? Карма? Подводные землетрясения? Ответ прост - вы сами.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Пять инструментов Site Reliability Engineering

Время на прочтение 6 мин
Количество просмотров 5.7K
Блог компании Southbridge IT-инфраструктура *DevOps *

Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться.

В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем. 

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 0

DevSecOps и практики разработки защищенного ПО в контексте современных вызовов

Время на прочтение 11 мин
Количество просмотров 2.7K
Блог компании Swordfish Security Информационная безопасность *DevOps *

Всем привет!

Я Юрий Сергеев, основатель и генеральный партнер Swordfish Security. В нашем блоге мы рассказываем о новых трендах в индустрии DevSecOps, о трудностях, с которыми сталкиваемся, о применяемых инструментах, а также о том, к чему готовиться в будущем.

В этой статье хочу поговорить о технологических вызовах, рассмотреть наиболее актуальные сегодня практики безопасной разработки с точки зрения современных запросов индустрии, поделиться собственным взглядом на тренды отрасли и вектора развития в текущих реалиях.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 1

Chaos Engineering, применение на практике

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 1.8K
Тестирование IT-систем *Python *Программирование *Анализ и проектирование систем *Распределённые системы *
Из песочницы

В современном мире, где ПО является фундаментальной частью нашей жизни, надежность и отказоустойчивость систем приобрела первостепенное значение. Chaos Engineering - это дисциплина, направленная на тестирование и повышение отказоустойчивости сложных распределенных систем путем проведения контролируемых экспериментов, имитирующих реальные сценарии отказов. Такой подход помогает выявить и устранить потенциальные проблемы до того, как они появились и могли бы привести к значительным сбоям, сократить время простоя и повысить общую доступность систем. В этой статье мы рассмотрим Chaos Engineering и преимущества этого подхода, известные интеграции, результаты, а также приведем примеры кода, чтобы показать, как использовать данную технологию на практике.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Хаос-инжиниринг с Chaos Mesh

Время на прочтение 6 мин
Количество просмотров 1.1K
Блог компании Southbridge IT-инфраструктура *Карьера в IT-индустрии DevOps *Kubernetes *

В этой статье мы поговорим об использовании Chaos Mesh — опенсорс-фреймворка для хаос-инжиниринга в Kubernetes. Все развёртывания из этой статьи доступны на GitLab. Клонируйте репозиторий и продолжайте читать.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0