Комментарии 27
Прослеживается тенденция — крупные веб-сервисы падают из-за проблем с сетевыми настройками. Что Яндекс, что Амазон — примерно одна и та же история.
(с) От всего не упасешься :) За то теперь исправят корявое место
Бедные Админы, столько не спать!
Деньги вернули одновременно с публикации сообщения.
У нас правда ещё одна жалоба к ним, или просьба — в следствии экстренного переезда из «зоны бедствия» в другую — потеряли деньги на зарезервированных инстансах, за которые недавно внесли плату. Попросили их перенести в другую зону. Вроде как сказали, что решат.
У нас правда ещё одна жалоба к ним, или просьба — в следствии экстренного переезда из «зоны бедствия» в другую — потеряли деньги на зарезервированных инстансах, за которые недавно внесли плату. Попросили их перенести в другую зону. Вроде как сказали, что решат.
Да уж, а вы все «Клодо упал, клодо упал» :)
Вольнодумающтй такой трафик получился.
— Джон, интерфейс для трафика en0 или en1?
— Не знаю, Фил, попробуй en1.
— Не знаю, Фил, попробуй en1.
Прямо теория катастроф… Система расшатывается из-за небольшого изменения параметров.
10 дней пользования инстансом это одно, а как насчет убытков за 2 дня простоя? Сомневаюсь что речь идет про эквивалентные суммы.
Эффект бабочки. Одна система, пытаясь выжить начинает тянуть ко дну другую, другая третью и все рушится в одночасье…
Мне кажется у них сделана грамотная система резервирования и подстраховки для каждой системы в отдельности, но нет какой-то общей мониторинговой тулзы, которая бы отслеживала такие изменения в структуре и давала бы алерт как сотрудникам, так и сама бы пыталась остановить стихию. Видимо это и хотел сказать Амазон в своей итоговой фразе.
Мне кажется у них сделана грамотная система резервирования и подстраховки для каждой системы в отдельности, но нет какой-то общей мониторинговой тулзы, которая бы отслеживала такие изменения в структуре и давала бы алерт как сотрудникам, так и сама бы пыталась остановить стихию. Видимо это и хотел сказать Амазон в своей итоговой фразе.
Строго говоря ничего нового, по крайней мере для опытных.
Очередное подтверждение аксиом, что никакие вложенные деньги, никакие умные головы в штате и правильная архитектура, никакое отстутствие single point of failure в конструкции, не гарантирует абсолютную надежность системы в целом.
И еще одно подтверждение тому, что человек в таки системах — самое слабое звено, а человеческая ошибка — наиболее частая причина аварии.
Очередное подтверждение аксиом, что никакие вложенные деньги, никакие умные головы в штате и правильная архитектура, никакое отстутствие single point of failure в конструкции, не гарантирует абсолютную надежность системы в целом.
И еще одно подтверждение тому, что человек в таки системах — самое слабое звено, а человеческая ошибка — наиболее частая причина аварии.
Хоть сейчас все интернеты и кроют амазон на чём свет стоит, я всё же считаю, что не ошибаются только боги. И эти 2 дня оффтайма в итоге всем пойдут на пользу. И амазон пересмотрит многое в своей работе (хотелось бы конечно, чтобы ещё и на деньги влетел, дабы не был настолько самоуверенным) и станет стабильнее (особенно EBS), да и юзеры поймут, что амазон — не панацея для фэйловера и не стоит намертво привязываться к структуре конкретного облака.
«некая недосказанность относительно первоначального сбоя, то есть какая именно была ошибка в сетевых настройках, об этом ничего не сказано»
Это как? :) Они-же честно сказали что именно переадресация в вторичную сеть всё и сломала. Или народ требует конкретных портов на цисках?
Если уж и жаловаться на что, так это на отсутствие своевременных и полезных сообщений о том, что там происходило во время аварии. Вот тут, например народ жаловался на то, что сообщения были не техническими и полезными, а из серии «Ну вот упало, но пока мы всё ещё в пределах разрешённого даунтайма согласно соглашению на обслуживание, так что не психуйте».
Это как? :) Они-же честно сказали что именно переадресация в вторичную сеть всё и сломала. Или народ требует конкретных портов на цисках?
Если уж и жаловаться на что, так это на отсутствие своевременных и полезных сообщений о том, что там происходило во время аварии. Вот тут, например народ жаловался на то, что сообщения были не техническими и полезными, а из серии «Ну вот упало, но пока мы всё ещё в пределах разрешённого даунтайма согласно соглашению на обслуживание, так что не психуйте».
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Отчёт о причинах сбоя Amazon EC2