Аварии на серверных фермах

    Продолжая тему аварий на серверных фермах. Причины ухода в офлайн мощных инфраструктур дата-центров весьма различны: перебои в электроснабжении, неполадки в системах охлаждения, работе резервного дизель-генератора, в оборудовании, ненадлежащее техническое обслуживание этого же оборудования и т.п. Не стоит забывать и о человеческом факторе.



    Как говорится, на ошибках учатся, и хорошо если не на своих. Операторы серверных ферм могут извлечь полезные уроки о том, как подготовится к потенциально возможной аварии, устранить ее последствия, да и вообще избежать каких-либо промахов, которые влекут за собой немалые потери.

    Cogeco Peer1


    Дата-центр Cogeco Peer1 в Атланте ушел в офлайн из-за проблем в системе резервного питания.



    Компания Cogeco Peer1 (Атланта, США), которая предоставляет услуги в области управляемого хостинга, после ухода в офлайн ее серверной фермы, стала в центре обсуждений и критики в социальных сетях. Многие клиенты этого сервис-провайдера высказали свое «фе» в отношении компании, многие грозились поменять провайдера и перевести все свои рабочие нагрузки в AWS. AWS были рады присоединиться к такому рода высказыванию и попытались переманить недовольных клиентов Cogeco Peer1.



    Серверная ферма ушла в даунтайм из-за частичного прекращения подачи электроэнергии. На устранение проблемы ушло почти пять часов, все началось в половину второго, на полную мощность дата-центр заработал только к семи вечера. Из-за случившегося сбоя в электроснабжении была полностью отключена инфраструктура в определенных участках серверной фермы. Как обьявила Cogeco Peer1, причиной даунтайма стал сбой в системе резервного питания ЦОД.

    TeliaSonera и «человеческий фактор»




    Компания TeliaSonera предоставляет услуги телекоммуникаций и сетевого доступа. Недавно из-за ошибки инженера серверной фермы при конфигурировании маршрутизатора в ЦОД, многие пользователи таких известных интернет-сервисов, веб-сайтов и приложений вроде WhatsApp, Reddit, CloudFlare и AWS понесли потери. Большая часть трафика вместо того чтобы идти в Европу, была направлена в Гонконг. Миллионы пользователей прочувствовали данную ошибку на себе при подключении к интернету и работе с популярными приложениями. Вначале эксперты предполагали, что данная проблема вызвана повреждением трансатлантического магистрального телекоммуникационного кабеля. Два часа понадобилось, чтобы устранить проблемы на серверной ферме TeliaSonera. Клиентам были отправлены письма с извинениями, а в блоге компании появилась запись о том, что компания планирует приложить максимум усилий в направлении автоматизации своих систем. Такое решение сведет к минимуму возникновений простоев по причине человеческого фактора.



    Многие компании часто умалчивают о причинах, которые приводят к сбоям и простоям в работе серверных фермах. Владельцы дата-центров весьма неохотно делятся сведениями об авариях у себя на объектах. В офлайн ушел сайт одной из крупнейших американских кредитных компаний Lending Club. Компания за время работы (с 2006 года) выдала кредиты на сумму $18млрд., неудивительно, что данный простой очень обеспокоил инвесторов компании. Сбой в работе наблюдался на прошлой неделе, причиной были названы неполадки в дата-центре (точно не указанные). Несколько часов ЦОД находился в даунтайме.



    Кстати, по данным компании Emerson, самой частой причиной, вызывающей сбой в работе дата-центров, является отказ аккумуляторов ИБП. В этом исследовании приняли участие 450 операторов серверных ферм. Второй проблемой является перегрузка ИБП, еще — ошибки монтажа электрических соединений, сбои в работе АВР и короткие замыкания. Половина проблем связана все с тем же с человеческим фактором. Одна треть сбоев в работе дата-центров случается «благодаря» системам охлаждения, в 35% случаев из-за утечки воды.



    Если говорить о нашем рынке (украинском), то владельцы ну уж очень неохотно делятся информацией о происходивших сбоях и причинах ухода в офлайн инфраструктур своих серверных ферм. А начинается все, как ни банально, с конструкций под размещение ЦОД. Старые здания, износившиеся строительные конструкции, замаскированные трещины в перекрытиях, несущая стена с выбитым проемом в полметра на метр… Тополиный пух, который в летнее время забивает теплообменники внешних блоков, а в зимнее время эти же блоки часто останавливаются по причине обмерзания или заклинивания вентиляторов из-за попавших в них сосулек с крыши. Экономия на системе вентиляции, а именно установке калорифера в ней, приводит к тому, что зимой оттуда стекает конденсат. Сбои в работе ИБП случаются и из-за подключения непрофильной нагрузки к участку электрической цепи серверной фермы. Мощный кондиционер в кабинете директора, электрочайник у секретарши Глаши и т.д. Вот только короткий список причин уводящий серверные фермы в офлайн.
    ua-hosting.company
    Хостинг-провайдер: серверы в NL до 300 Гбит/с

    Comments 10

      +10
      «Горшочек, не вари!» У вас какой-то зверский план по заваливанию Хабра хоть чем-то?

      А когда начало — подборка в стиле «лучшие аварии», а конец, внезапно
      Если говорить о нашем рынке (украинском)… Мощный кондиционер в кабинете директора, электрочайник у секретарши Глаши и т.д. Вот только короткий список причин уводящий серверные фермы в офлайн.

      и это считается чем-то «профессиональным» — то, простите, я бы ни в один ДЦ такого «рынка» хостинга не пошел бы. Страшно
        –1
        вполне на сегодняшнее время с Вами согласна, поэтому услуги, предоставляемые нашей компанией, территориально находятся на территории Нидерландов, США, Сингапура.
          +3
          Я примерно в курсе. Поэтому слово «нашем» про рынок прозвучало несколько… сложно. В Сингапуре с чайниками у вас получше, думаю? )

          А число статей, право, может, поменьше сделать? Вы ж не дятлы, добить и долбить, да еще такой мякиной?

          Писали бы, как Крок, про устройство вашей площадки, про инженерные и коммерческие вашие решения — все бы зачитывались, правда.
            0
            Приветствую, Дмитрий, мы очень признательны Вам за критику, аудитория Хабра очень широкая, кому-то интересны и такие материалы. Мы ориентируемся на широкий охват аудитории. Согласен, что порой качество контента может немного страдать, мы обязательно обратим внимание на его улучшение.

            В наших интересах, как и в Ваших, чтоб контент был лучше.
              0
              Корректора, редактора — оставьте, слог хороший.
              Дайте задание, например, написать про то, как у Вас автоматизировано… например, передача сервера клиентам.
              Пришла заявка, потом пришел на работу Вася прочёл её и еще 5 и включил сервер (и еще 1). Этот сервер выключен уже неделю т.к. и так далее вплоть до привязки ip к mac :)
              Я уверен, там детективы писать можно!
                0
                Очень надеюсь, что привязка ip к mac все же не делается. Это не конторская тачка, которая должна оставаться неизменной, и даже не хост в домовой сети, где особо одаренные админы зачем-то ip-mac-port binding включают.
                  0
                  Да, удобнее, когда по порту определяют :)
                  А админы такое делают из-за того, что им выдали только тупые свичи вроде как.
                +1
                Ну, было интересно, мне вот понравилось… Но в статье на про аварии на серверных фермах(почувствуйте масштаб!) на таком серьезном сайте перейти от падения крупного датацентра к нерадивым украинским директорам и секретаршам… Это было необычно.

                А по мне, так можно было бы разделить(и расширить) на 3 темы — что-то вроде: случаи падения, причины падения дата центров, халатность на серверных фермах СНГ. Я бы почитал.
          +2
          Единственное, что я вынес из этой статьи — владельцы серверов не очень неохотно делятся информацией о сбоях.
          • UFO just landed and posted this here

            Only users with full accounts can post comments. Log in, please.