Злая обезьянка повышает аптайм / Habr

Системные администраторы сервиса Netflix нашли интересное решение, которое позволило улучшить архитектуру сервиса, и уменьшить влияние технических проблем на конечных пользователей.

В компании был написан и запущен внутренний сервис под названием «Chaos Monkey» (Обезьянка Хаоса (не путать с Хаусом!)), который случайным образом убивает инстансы AWS или процессы на серверах, обслуживающих сервис. Как ни странно, такой подход не вредит, а помогает технарям улучшать качество сервиса и повышать аптайм, убивая несколько ~~обезьян~~ зайцев — системы Netflix проходят круглосуточную проверку на то, что:

Все узлы системы имеют избыточное дублирование
Падение одного сервера или процесса не приводит к проблемам в оказании сервиса, даже минорным — например, ошибкам или дебаг-сообщениям на сайте
Сисадмины точно знают, что происходит при падении каждого из серверов и как это влияет на всю систему
Сисадмины имеют большой опыт решения проблем с серверами, почти на каждую проблему уже есть задокументированное решение

Этот оригинальный (если не сказать парадоксальный) подход сэкономил огромное количество денег и времени компании. А что об этом думают хабрагуру?