WMF: Глобальный перебой (неполадки с охлаждением и DNS)

http://techblog.wikimedia.org/2010/03/global-outage-cooling-failure-and-dns/
  • Перевод
imageГоворят, во Флориде ещё осталось немного Википедии.... ©

Из-за проблемы с перегревом в нашем европейском дата-центре (в Амстердаме) многие из наших серверов отключились для самозащиты. Поскольку это повлияло на доступ европейских пользователей ко всем Википедиям и другим проектам, мы были вынуждены переместить весь пользовательский трафик на наш кластер во Флориде (в Санкт-Петербурге), для которого у нас есть введённая в действие стандартная быстрая процедура восстановления после отказа (failover), которая меняет наши DNS-записи.

Однако, вскоре после того как мы сделали это failover-переключение, то оказалось, что этот отказоустойчивый механизм сейчас неисправен, что привело к прекращению работы резолюции DNS (DNS resolution) сайтов Викимедиа в глобальном масштабе. Эта проблема была быстро решена, но, к сожалению, восстановление доступа для всех может занять до часа из-за эффектов кэширования.

Мы приносим извинения за причиненное неудобство.

Обновление: К сожалению, для многих этот перебой, кажется, длился дольше, чем час. Похоже, что многие провайдерские резолверы DNS не учитывают так называемые Negative Cache TTL, которые мы послали, и вместо этого используют бОльшие значения. Мы обошли эту проблему путем переименования неисправной записи DNS во что-нибудь другое.

Обновление от 21:32 по Универсальному координированному времени: Наш SSL-доступ secure.wikimedia.org был отключен из-за перегрузки, но сейчас работает.

Wikimedia Technical Blog, techblog.wikimedia.org

Копии Википедии: английской (легальная), русской («пиратская» =)). Может быть вам также поможет Coral Content Distribution Network.

Кстати, у Википедии в 2005 году после отключения электричества был гораздо более масштабный сбой.
Поделиться публикацией
Комментарии 15
    0
    Что то зачастили эти double fail. Писали недавно про гугл аппс, теперь вот википедия. Неужели в таких крупных проектах не тестируют то что сделали?
      0
      Самые неожиданные проблемы быстро решаются именно в критических ситуациях. Даже если к ним и готовились. Тем более нельзя предугадать все варианты развития событий. Увы.
      0
      ну так, для нормального failover, выполняемого средствами DNS нужно дефолтные 3600 секунд уменьшать. Я остановился на цифре в 5-10 минут для таких систем.
        0
        bing.com ?! хм… до первого апреля вроде еще далековато…
          +1
          Спасибо, объяснили в чём дело. Я думал, что это у меня что-то не так.
          В принципе, для пользования особых неудобств не было. Только некоторое удивление от переадресации и повторного ввода запроса.
            0
            Что самое удивительное, ровно сейчас и у меня проблемы с DNS на моих серверах…
              –1
              я это также заметил: grabalki.blogspot.com/2010/03/wikipedia.html
              но был конфуз, когда я зашел с нетбука на который вифаем раздаю инет (вики открылась)

              PS дело в том, что в нетбуке вбит гугловый dns (8.8.8.8)
                +1
                Ага! Так таки это были проблемы не локально у меня. Застал момент, когда wikipedia.org резолвится, а en.wikipedia.org — нет.
                  0
                  Перегрев затронул многие сервера. Предположу что это всем известный LeaseWeb. Причем более чем уверен что они о перегреве узнали лишь от клиентов. Качество идет вниз.
                  Наши сервера к сожалению тоже «перегрелись» в стойках вчера и ушли спать.
                    0
                    Ну вот и вся проблема…
                      0
                      То, что не работала Вики это и так понятно, а вот отчего возникли эти неполадки?
                      «Скандалы! Интриги!...»
                        0
                        молодцы, ребята…
                        проект однозначно пользуется популярность, судя по росту беклинков на него
                        www.webboar.com/www/wikimedia.org

                        за 3 месяца — почти в 2 раза
                          0
                          Вы о каком проекте? Или для вас новость, что википедия немного популярна? Или же веббоар — ваш проект и пол шумок пиарите? :)
                            0
                            скорее второе =) но в этом ничего плохого не вижу =)
                              0
                              Ну немного в лоб, мне больше понравилось как это сделано — soves.habrahabr.ru/blog/88530/ :) И статья полезная, ну почти, и прочти незаметно продвижение своих услуг.

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое