Оптическое кольцо высокой доступности

    Добрый день, уважаемые Хабраюзеры.
    Хотели бы Вам рассказать о реализованном нашими инженерами проекте по построению оптического кольца высокой доступности между нашими облаками в Москве.




    При построении отказоустойчивой системы, способной сохранять управление и работоспособность при повреждении, облачный провайдер должен предъявлять особенно высокие требования к ее топологии. Такая отказоустойчивая система предусматривает соединение двух или более датацентров (ДЦ) и корпоративных сетей при помощи ВОЛС, что позволяет не перевозить компоненты системы хранения из одного места в другое для создания копии данных.
    Двумя основными конкурирующими топологиями соединения ДЦ в корпоративные оптические сети являются «звезда» и «кольцо». В случае выхода из строя какого-либо узла (или части кабельной системы) «кольца» работоспособность сети в целом сохраняется. Кроме того, кольцевая топология является избыточной по числу связей, а значит и более дорогой. В свою очередь, «звезда» несколько лучше приспособлена для предоставления обычной для локальной сети централизованной услуги. Действительно, в локальной вычислительной сети (ЛВС) почти всегда есть сервер или маршрутизатор, для доступа к которому обычно и построена сеть. Сравнительные характеристики топологий «кольцо» и «звезда» представлены в таблице.

    Сравнение топологий «звезда» и «кольцо»


    Обеспечение непрерывной работы информационных систем заказчика, размещенных в облаке, является главной целью, которую должен ставить перед собой облачный хостинг-провайдер, а значит, повышение уровня SLA будет являться основной задачей.
    Создание собственного оптического кольца высокой доступности, схема которого представлена на рисунке ниже, позволило нам существенно повысить уровень SLA, который мы гарантируем нашим клиентам.



    Оптическое кольцо построено между двумя нашими облаками в Москве, которые физически находятся в ДЦ уровня Tier 3, и узлами коммутации M9 и M10. Расстояние между ДЦ может составлять до 100 км, в нашем случае это около 15 км. Основная особенность кольца – отсутствие единой (критической) точки отказа. Оптические каналы полностью дублированы, причем они прокладываются по разным маршрутам и разными операторами. Благодаря такому решению практически исключается недоступность сервисов в облаке из-за проблем с каналами, т.к. даже в случае выхода из строя одного оптического канала вся работа продолжится по другому контуру и прерывания не будет. Помимо оптических каналов дублируются все коммутаторы и маршрутизаторы, что также обеспечивает автоматическое переключение на рабочий контур в случае выхода из строя одного из маршрутизаторов или коммутаторов. Помимо проблем с каналами, данная схема позволяет исключить ущерб от земляных работ, которые по каким-то причинам проводятся именно там, где лежит ВОЛС.
    Общая пропускная способность оптического кольца составляет 180 Гбит/с, из которых 120 Гбит/с – пропускная способность между ДЦ, 20 Гбит/с – между первым ДЦ и узлом коммутации М10, 20 Гбит/с – между узлами коммутации М10 и М9 и 20 Гбит/с – между узлом коммутации М9 и вторым ДЦ. Каждый из маршрутов состоит из физически независимых друг от друга оптоволоконных пар, которые агрегируются в общий канал на корневых маршрутизаторах.
    Вся сеть физически разделена на внутреннюю и внешнюю, разные интерфейсы серверов подключены в разные коммутаторы и работают в разных сетях. По внешней сети серверы общаются с Интернетом, по внутренней сети все серверы общаются между собой. Серверы подключены в коммутаторы уровней L2 и L3, которые, в свою очередь, подключены как минимум двумя 10-гигабитными линками к агрегирующему стеку коммутаторов. Каждый линк идет к отдельному коммутатору в стеке.

    Оптическое кольцо выполнено на коммутаторах компании «Extreme» серии Summit.


    Помимо базовой функциональности, основанной на поддержке стандартных Ethernet технологий, в коммутаторах Summit реализована технология RPR (Resilient Packet Ring). Эта технология позволяет коммутаторам образовывать кольцевую топологию, обеспечивать восстановление работоспособности за время менее 50 мс и эффективно использовать пропускную способность в кольцевых структурах.
    Коммутаторы Summit могут иметь до 24 слотов mini-GBIC для установки интерфейсных модулей 1000Base-X, 4 порта 10/100/1000Base-T и 2 слота для установки интерфейсных модулей 10GBase-X (XENPAK). Пропускная способность коммутирующей матрицы — 160 Гбит/с, пропускная способность на L3 — 65 миллионов пакетов/с. В коммутаторах поддерживаются протоколы RIPv1/2, OSPF, BGP-4, PIM-SM, IGMP, различные технологии обеспечения QoS на L1-L4, в т.ч. ограничение полосы пропускания с шагом 64 Кбит/с (1 Мбит/с на каналах 10 Гбит/с), 8 аппаратно обслуживаемых очередей на каждом порту. Предусмотрено резервирование источников питания, подключение внешних источников питания, резервирование банков памяти для хранения конфигурации и образа операционной системы ExtremeWare XOS.
    В решении предусмотрена возможность подключения к каждому узлу магистрального кольца по оптическим интерфейсам агрегирующих узлов. К каждому агрегирующему коммутатору по оптическим интерфейсам могут подключаться коммутаторы доступа для подключения пользователей.
    Технология RPR базируется на стандартном механизме Ethernet-коммутации второго (канального) уровня, дополненном алгоритмом фирмы RAD Data Communications. Последний позволяет всем узлам кольца получать информацию о состоянии сети и в случае аварии или нештатной ситуации быстро переводить трафик на альтернативный маршрут.



    Узел кольца RPR – это сетевое устройство, функционирующее как обычный коммутатор на втором уровне. Каждый узел имеет два магистральных порта для передачи трафика по кольцу, а также порты доступа, через которые трафик вводится в кольцо, и пользовательские порты для доставки трафика конкретных услуг. В штатном режиме все узлы RPR обмениваются специальными служебными сообщениями. Каждый узел через определенные промежутки времени передает сообщение о состоянии канала (link state) через оба своих магистральных порта. Даже если сообщение о состоянии кольца отсутствует, узел должен посылать сообщения «keep-alive», означающее для соседнего узла, что все в порядке. При получении узлом служебного сообщения с указанием того, что его сосед тоже получил такое сообщение, он считает кольцо функционирующим нормально. Канал считается аварийным, когда узел получает соответствующее сообщение или когда узел вообще не получает никаких служебных сообщений в течение 30 мс. В этом случае трафик пускается в обратном направлении в обход аварийного участка. Такой алгоритм позволяет сочетать простоту обычной коммутации с возможностью быстрой перемаршрутизации трафика в случае сбоя.

    Результаты:

    Таким образом, оптическое кольцо высокой доступности позволяет повысить уровень доступности сервисов в облаке (SLA) до значения 99,99% и выше. Это означает, что появляется уникальная возможность адаптировать уровень SLA облачных сервисов к требованиям отдельных заказчиков и отраслей, что является огромным конкурентным преимуществом. Благодаря адаптируемым SLA у облачных провайдеров появляется способ дифференциации, который выгоден как для них самих, так и для клиентов. Не всем заказчикам нужны одинаково высокие гарантии безотказной работы. Например, для заказчика, который пользуется облаком для тестирования приложений, в большинстве случаев не требуется такой же высокий SLA, как для заказчиков, которые размещают в облаке критически важные системы. Понимание этого факта позволит заказчикам существенно снизить свои расходы на IT, а облачные провайдеры могут предложить клиентам необходимый уровень обслуживания и специальные цены в соответствии с выбранным уровнем SLA.

    P.s. Всем хабраюзерам по прежнему предоставляется бесплатный тестовый доступ в наше облако.
    Cloud4Y
    #1 Корпоративный облачный провайдер

    Комментарии 11

      +2
      Оптические каналы полностью дублированы, причем они прокладываются по разным маршрутам и разными операторами.
      Как практически добиться, чтобы ни один погонный метр этих разных каналов разных операторов точно не оказался в одном и том же коллекторе и соответственно не сгорел одновременно при пожаре в этом коллекторе?
        +1
        Мы специально сами прокладывали маршруты, чтобы не было пересечения в соответствии с предоставленной нам картой колодцев.
        На практике нам удалось проверить это, когда один из наших оптических каналов перебил экскаватор, остановки не было, работа продолжилась по другому контуру.
          0
          Предположим, на начальном этапе вы убедились, что каналы действительно везде лежат в разных коллекторах. Вдруг этот самый экскаватор или какое-то другое происшествие серьезно повреждают один из каналов, оператор при восстановлении канала не может использовать старый маршрут (потому что там нужны длительные восстановительные работы) и укладывает небольшой участок канала по маршруту, который совпадает с другим каналом другого оператора. Кто и как это заметит?
            0
            Я понимаю куда Вы клоните. Я согласен с Вами, что заметить это достаточно проблематично.
            Однако, я хотел бы подчеркнуть тот факт, что каналы у нас от разных операторов, соответственно, от разных юридических лиц и вероятность, что один оператор полезет на маршрут к другому очень мала. Также в договоре с каждым из операторов прописан пункт, по которому нас должны проинформировать в случае изменения маршрута канала.
              0
              Я бы сильно не верил в этот пункт: люди, которые ползают по колодцам, договоры не читают. Я не знаю, как обстоит дело в других компаниях, но у нас договоры с клиентами редко доходят до эксплуатирующих подразделений.
        0
        Где терминируется L3 облака и как это резервируется?
          0
          На коммутаторах с поддержкой L3. Резервируется количеством коммутаторов и количеством подключений к операторам сети.
            0
            У Вас все коммутаторы на схеме с поддержкой L3. Можно подробнее? Про операторов, как я понимаю, этим BGP занимается. Что терминирует IP в ДЦ1 и как это резервируется?
              0
              Да Вы правы, используется BGP, собственная AS и собственный IP диапазон сетей.
          0
          Можно было бы и поподробнее рассказать, или сосредоточиться на чём-то конкретном, а так как-то сумбурно получилось.
          Но ничего тут нового и особо интересного нет.
          У cisco, например, есть REP, который тоже предназначен для построения высокодоступных кольцевых топологий, и который так же может работать в открытых сегментах.
          Да и есть ещё Ethernet Ring Protection Switching, который поддерживается Juniper'овскими коммутаторами…
            0
            Позвольте побуквоедствовать.

            Коммутаторы Summit могут иметь до 24 слотов mini-GBIC для установки интерфейсных модулей 1000Base-X
            Модификации 48x смотрят на это утверждение с полным непониманием.

            и 2 слота для установки интерфейсных модулей 10GBase-X (XENPAK).
            Extreme работают с XFP и SFP+, никаких ксенпаков. Было при царе Горохе, но сегодня в прайслисте ксенпаков нет, ибо формфактор модулей очень немасштабируемый.

            Пропускная способность коммутирующей матрицы — 160 Гбит/с, пропускная способность на L3 — 65 миллионов пакетов/с.
            Вы бы, чтоль, модель указали, а то коммутаторов у Extreme довольно много.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое