Как сбой в дата-центре может привести к отмене тысяч рейсов крупнейших авиакомпаний

    В прошлый понедельник многие интернет-СМИ писали о том, что тысячи авиарейсов второй по размеру и значимости авиакомпании мира были отменены. Речь идет о Delta Air Lines. Тысячи и тысячи пассажиров Delta Air Lines не смогли никуда улететь, поскольку рейсы, на которые они купили билет, просто перестали существовать. Как оказалось, проблема — в сбое компьютерной системы компании. Причем не в региональной, а в основной — проблема случилась в главном дата-центре Delta Air Lines, расположенном в Атланте, США.


    Служащий Delta Airlines помогает пассажиру, чей рейс отменили, разобраться в ситуации

    У компании есть и дублирующие системы, которые в случае проблемы в основном дата-центре должны были начать работу, заменив собой проблемные серверы. Но этого не случилось, вторичная, дублирующая система тоже не функционировала. Интересно, что по словам руководства, компания вложила десятки миллионов долларов США в дублирующие системы. Специалисты Delta Air Lines смогли все восстановить всего за шесть часов, но за это время компания потеряла миллионы долларов из-за отмены рейсов и связанных с этим убытков. Проблема — сбой в энергосистеме и неполадки с запасным генератором.

    Как оказалось, штатное переключение с основной энергосистемы на вспомогательный генератор привело к выходу из строя последнего. Случился пожар, который быстро был потушен. Но вся инфраструктура дата-центра Delta Air оказалась обесточенной. Только через несколько часов удалось ввести в строй 400 из 500 серверов, и спустя еще некоторое время восстановилась работа остальных 100 серверов. Все это время почти весь флот из 800 самолетов оставался на земле. А отмена всего одного авиарейса обошлась компании в $17 000, плюс пришлось компенсировать пассажирам транспорт, питание, дополнительные расходы и т.п.

    Еще одна проблема — устаревшая инфраструктура дата-центра. Электронная система бронирования билетов была создана в 1960 году. С тех пор она неоднократно перестраивалась, обновлялась, но все же ИТ-инфраструктура компании не соответствует современным требованиям. Объем данных, с которыми работают сервера компании велик, а бэкапы делаются несколько раз в день, а не в постоянном режиме, теневые копии не создаются. В результате при аварийной ситуации восстановление нормальной работы дата-центра требует больше времени, чем если бы данные бэкапились непрерывно.

    А что с Southwest Airlines?




    Это еще одна крупная авиакомпания, потерявшая миллионы долларов США из-за сбоя в дата-центре, случившегося еще 20 июля. А причина сбоя — частичный отказ в работе одного-единственного маршрутизатора, коих в дата-центре компании сотни. Служба поддержки ДЦ не заметила проблемы, и буквально через несколько минут вся система рассыпалась, как карточный домик. Руководитель компании сравнил происшествие с наводнением, которое случается раз в 1000 лет.

    В течение последующих четырех дней были отменены 2 300 рейсов, сотни тысяч пассажиров никуда не улетели, в течение четырех дней билеты было невозможно забронировать. Все это стоило компании десятков миллионов долларов в виде прямых и косвенных убытков. Акции Southwest Airlines упали на 11% и пока что динамика обратного роста не слишком активная.

    После проведения детального расследования происшествия оказалось, что сбой случился сам по себе, вмешательства со стороны не было. По словам специалистов, система резервного копирования и хранения информации в дата-центре компании была сконфигурирована неправильно, так что воспользоваться всеми этими данными, введя в работу запасную систему, оказалось нельзя.

    В ближайшем будущем компания планирует развернуть новую систему бэкапов, с новым оборудованием, что должно свести к минимуму повторение такой ситуации в будущем. Тем не менее, свои 10-15 миллионов долларов США компания потеряла.

    И это еще не все


    Southwest Airlines и Delta Airlines не единственные авиакомпании, которые потеряли деньги из-за сбоев оборудования дата-центров. В мае компания JetBlue просила своих пассажиров регистрироваться в аэропорту «вручную», а не автоматически. Причина — все тот же сбой компьютерной системы. Плюс United Airlines отменила сотни авиарейсов из-за сбоев в собственном дата-центре в прошлом году.

    Основной источник проблем — недостаточное количество серверов для бэкапа, неправильно настроенная система резервирования данных, проблемы с энергетической инфраструктурой, экономия. Плюс ко всему, здесь присутствует еще проблема отсутствия унификации оборудования и сервисов — у каждой компании технические системы собственные, порой, уникальные, разрабатываемые в течение десятков лет. В результате общие решения, рекомендуемые в случае сбоев в структуре дата-центров, для ряда таких компаний просто неприменимы. А это влечет за собой, как видим, миллионные убытки.

    Согласно недавнему исследованию, проведенного институтом Понемона, сбой в дата-центре обходится его владельцам в среднем в $74000 (в 2015 году). Наиболее дорогим оказалась одна из прошлогодних аварий, с общей суммой убытков для владельца дата-центра в $2.4 млн.

    Другие наши публикации:
    King Servers
    77.26
    Хостинг-провайдер «King Servers»
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 14

      +4
      Попал в outage, который случился у southwest — весьма неприятно, вся эта регистрация вручную, особенно учитывая их идиотскую автобусную систему занимания мест. В итоге все расселись, минут через 40 нам сообщили, что никуда не летим, выходим из самолета. Как только все вышли из самолета, сообщили, что все-таки летим и надо возвращаться в самолет :) В конечном итоге вылетели всего часа на полтора позже назначенного, не очень понял, откуда 4 дня взялись. Хотя может последствия они и разгребали 4 дня. Лично я после этого решил больше не летать этой авиакомпанией, и если таких как я достаточно много, это добавляет к косвенным убыткам, которые посчитать практически невозможно.
        0
        Зря вы решили: SouthWest — одна из лучших американских авиалиний. Сбой в системе случается нечасто. Зато у других компаний бывают куда более банальные ситуации, из-за которых бывают идиотские задержки или отмены рейсов.
          0
          Дело не только в этом конкретном сбое. Дурацкая система занимания мест (места нельзя забронировать заранее, можно только попасть в какую-то группу, типа B1-B30, и затем в соответствие с этой группой как в автобусе занимать любое понравившееся место — может кому-то такое и нравится, но точно не мне), довольно старые самолеты и отсутствие нормальной жратвы (даже за деньги, так как бесплатно только крендельки дают на внутренних рейсах во всех авиакомпаниях). Я в последнее время летаю в основном Аляской — нормальный check in, современные самолеты с внутренним wi-fi с кучей развлекухи (фильмы, сериалы, шоу), включая бесплатную (плюс платный выход в инет если нужно), розетками и usb-портами в спинках сидений и хотя бы небольшой выбор еды в зависимости от длительности полета.
          0
          Тоже как-то слишком категорически, один сбой и уже не будете летать, проблемы есть у всех, а если у вновь Ввми выбранной компании будут проблемы, так и будете менять их? Если такие проблемы регулярные, тогда стоит задуматься о смене авиакомпании, а если это единичный случай, то я и не думал бы о смене авиакомпании, да и все зависит от поведения самой авиакомпании в такой ситуации.
            0
            То есть вы выберете другую авиакомпанию, у которой подобных фейлов не встречалось?
            Но ведь у них этих фейлов не было ПОКА. Они не потратились на тестирование подобной ситуации и не могут быть уверены, что этого не произойдёт в будущем.
            0
            Самое время брать акции?
              0
              Ну, кровь пока не льется
              +2
              Виноватыми назначат ИТшников. Лишат премий и должностей. Хотя догадываюсь, что они очень давно предупреждали руководство о необходимости модернизации систем.
              Назначат, накажут и ничего не поменяют, потому что с точки зрения бизнеса это дешевле. Пара датацентров, географически разделённых, будет дороже 6 часового простоя.
                0
                >Пара датацентров, географически разделённых, будет дороже 6 часового простоя.
                тем более, что даже они не будут гарантировать, что простоев не будет
                0
                Лично у меня картинка http://www.dallasnews.com/incoming/20160730-1469899357-earns-southwest-airlines.jpg.ece/BINARY/1469899357-Earns-Southwest-Airlines.jpg, расположенная прямо под заголовком «А что с Southwest Airlines?», не открывается, браузер показывает плейсхолдер, мол, «404».

                В статье про надежность это выглядит отличным примером )
                  0
                  А это все косорукие программисты и жадные менеджеры.

                  Косорукие программисты, которые пишут в лицензионных соглашениях, что ихние поделки ни для чего не годятся и если что, идите нахер и поэтому, их не наказывают рублем и жадные менеджеры, которые норовят все сэкономить на инфраструктуре, а потом рвут пейсы, когда угорают на суммы в десятки и сотни раз большие и их опять не наказывают за это.
                    0
                    Вот к чему приводит «зачем трогать, если и так работает».
                      +1
                      А я думал, зачем Яндексу эти его учения…
                      Теперь думаю почему другие компании их не проводят…
                        0
                        Лично наблюдал в одной из стран Африки в ЦБ, когда отключилось питание местные умельцы так и не смогли завести ни один из трех огроменных красивых дизелей CAT, стоящих прямо во дворе. И солярку принесли и репу чесали, в итоге после окончания UPSов, все погасло, включая SWIFT.

                        Only users with full accounts can post comments. Log in, please.