alizar Apr 30 2011 at 00:47

Отчёт о причинах сбоя Amazon EC2

3 min

2.4K

Cloud computing*

+57

Comments 27

Andrey_Kuprikov Apr 30 2011 at 05:25

Прослеживается тенденция — крупные веб-сервисы падают из-за проблем с сетевыми настройками. Что Яндекс, что Амазон — примерно одна и та же история.

Adrior Apr 30 2011 at 05:41

Может быть, это переходящий админ зла ходит по крупным сервисам и портит им настройки? :)

googol Apr 30 2011 at 05:45

Чорный Админ? Он ходит из компании в компанию и портит им настройки.

Adrior Apr 30 2011 at 05:58

На собеседовании:
— Где вы раньше работали?
— Во многих крупных компаниях, Яндекс, Амазон.
— О, это здорово, мы берём вас.
*зловещий хохот*

lasc May 1 2011 at 22:03

«индусы» с кучей сертификатов по циски/джунипер.

angry_elf Apr 30 2011 at 07:13

Можно им только позавидовать. На порядок более сложные вещи, как-то производительность, масштабируемость, конфигурируемость, бэкапы реализованы отлично, остаются такие мелочи как сетевые настройки.

ananazzz Apr 30 2011 at 05:40

(с) От всего не упасешься :) За то теперь исправят корявое место

ahilles Apr 30 2011 at 06:01

Бедные Админы, столько не спать!

MonkAlbino Apr 30 2011 at 06:56

Я думаю не спали там не только админы, но архитекторы этой системы.

habrsa Apr 30 2011 at 07:11

Деньги вернули одновременно с публикации сообщения.

У нас правда ещё одна жалоба к ним, или просьба — в следствии экстренного переезда из «зоны бедствия» в другую — потеряли деньги на зарезервированных инстансах, за которые недавно внесли плату. Попросили их перенести в другую зону. Вроде как сказали, что решат.

erlioniel Apr 30 2011 at 07:14

Да уж, а вы все «Клодо упал, клодо упал» :)

kemko Apr 30 2011 at 13:40

Клодо за текущий год падал уже как минимум 2 раза разными способами. Амазон пока, кажется, в первый раз.

erlioniel Apr 30 2011 at 13:47

Зато как…

UFO landed and left these words here

romx Apr 30 2011 at 16:04

Ну так «большому кораблю — большая торпеда» :(

DIDJER Apr 30 2011 at 07:28

Вольнодумающтй такой трафик получился.

dmitrek Apr 30 2011 at 07:36

— Джон, интерфейс для трафика en0 или en1?
— Не знаю, Фил, попробуй en1.

gag_fenix Apr 30 2011 at 09:29

Прямо теория катастроф… Система расшатывается из-за небольшого изменения параметров.

equand Apr 30 2011 at 17:51

Я думаю это просто DMZ-раздолбайство.
Это когда в интранете нет параноидальных админов.

a3x Apr 30 2011 at 10:03

10 дней пользования инстансом это одно, а как насчет убытков за 2 дня простоя? Сомневаюсь что речь идет про эквивалентные суммы.

mokaton Apr 30 2011 at 10:23

Эффект бабочки. Одна система, пытаясь выжить начинает тянуть ко дну другую, другая третью и все рушится в одночасье…

Мне кажется у них сделана грамотная система резервирования и подстраховки для каждой системы в отдельности, но нет какой-то общей мониторинговой тулзы, которая бы отслеживала такие изменения в структуре и давала бы алерт как сотрудникам, так и сама бы пыталась остановить стихию. Видимо это и хотел сказать Амазон в своей итоговой фразе.

antivir Apr 30 2011 at 19:15

Чем-то напомнило Саяно-Шушенскую ГЭС…

fltz Apr 30 2011 at 21:14

По стилю читается как хроника Чернобыльской аварии

romx Apr 30 2011 at 10:40

Строго говоря ничего нового, по крайней мере для опытных.
Очередное подтверждение аксиом, что никакие вложенные деньги, никакие умные головы в штате и правильная архитектура, никакое отстутствие single point of failure в конструкции, не гарантирует абсолютную надежность системы в целом.

И еще одно подтверждение тому, что человек в таки системах — самое слабое звено, а человеческая ошибка — наиболее частая причина аварии.

fortyseven Apr 30 2011 at 12:45

СР! УВЧ! =)

Frenzy Apr 30 2011 at 17:17

Хоть сейчас все интернеты и кроют амазон на чём свет стоит, я всё же считаю, что не ошибаются только боги. И эти 2 дня оффтайма в итоге всем пойдут на пользу. И амазон пересмотрит многое в своей работе (хотелось бы конечно, чтобы ещё и на деньги влетел, дабы не был настолько самоуверенным) и станет стабильнее (особенно EBS), да и юзеры поймут, что амазон — не панацея для фэйловера и не стоит намертво привязываться к структуре конкретного облака.

bugabuga May 1 2011 at 01:36

«некая недосказанность относительно первоначального сбоя, то есть какая именно была ошибка в сетевых настройках, об этом ничего не сказано»
Это как? :) Они-же честно сказали что именно переадресация в вторичную сеть всё и сломала. Или народ требует конкретных портов на цисках?

Если уж и жаловаться на что, так это на отсутствие своевременных и полезных сообщений о том, что там происходило во время аварии. Вот тут, например народ жаловался на то, что сообщения были не техническими и полезными, а из серии «Ну вот упало, но пока мы всё ещё в пределах разрешённого даунтайма согласно соглашению на обслуживание, так что не психуйте».