Можно им только позавидовать. На порядок более сложные вещи, как-то производительность, масштабируемость, конфигурируемость, бэкапы реализованы отлично, остаются такие мелочи как сетевые настройки.
Деньги вернули одновременно с публикации сообщения.
У нас правда ещё одна жалоба к ним, или просьба — в следствии экстренного переезда из «зоны бедствия» в другую — потеряли деньги на зарезервированных инстансах, за которые недавно внесли плату. Попросили их перенести в другую зону. Вроде как сказали, что решат.
Эффект бабочки. Одна система, пытаясь выжить начинает тянуть ко дну другую, другая третью и все рушится в одночасье…
Мне кажется у них сделана грамотная система резервирования и подстраховки для каждой системы в отдельности, но нет какой-то общей мониторинговой тулзы, которая бы отслеживала такие изменения в структуре и давала бы алерт как сотрудникам, так и сама бы пыталась остановить стихию. Видимо это и хотел сказать Амазон в своей итоговой фразе.
Строго говоря ничего нового, по крайней мере для опытных.
Очередное подтверждение аксиом, что никакие вложенные деньги, никакие умные головы в штате и правильная архитектура, никакое отстутствие single point of failure в конструкции, не гарантирует абсолютную надежность системы в целом.
И еще одно подтверждение тому, что человек в таки системах — самое слабое звено, а человеческая ошибка — наиболее частая причина аварии.
Хоть сейчас все интернеты и кроют амазон на чём свет стоит, я всё же считаю, что не ошибаются только боги. И эти 2 дня оффтайма в итоге всем пойдут на пользу. И амазон пересмотрит многое в своей работе (хотелось бы конечно, чтобы ещё и на деньги влетел, дабы не был настолько самоуверенным) и станет стабильнее (особенно EBS), да и юзеры поймут, что амазон — не панацея для фэйловера и не стоит намертво привязываться к структуре конкретного облака.
«некая недосказанность относительно первоначального сбоя, то есть какая именно была ошибка в сетевых настройках, об этом ничего не сказано»
Это как? :) Они-же честно сказали что именно переадресация в вторичную сеть всё и сломала. Или народ требует конкретных портов на цисках?
Если уж и жаловаться на что, так это на отсутствие своевременных и полезных сообщений о том, что там происходило во время аварии. Вот тут, например народ жаловался на то, что сообщения были не техническими и полезными, а из серии «Ну вот упало, но пока мы всё ещё в пределах разрешённого даунтайма согласно соглашению на обслуживание, так что не психуйте».
Отчёт о причинах сбоя Amazon EC2