Облачная инфраструктура InfoboxCloud запущена в Амстердаме. Технические детали инсталляции

    Мы рады сообщить о доступности облачной инфраструктуры InfoboxCloud в Амстердаме. Чуть раньше в той же локации были запущены VPS. Теперь воспользоваться облаком enterprise–класса можно как в Москве, так и в Европе. Мы планомерно реализуем стратегию по расширению присутствия InfoboxCloud в различных регионах мира. В этой статье мы приоткроем завесу тайны над железной частью InfoboxCloud и используемым ПО. В конце статьи можно бесплатно получить пробную версию InfoboxCloud.


    Железо

    В новой локации мы используем только брендовые серверы. Типичная конфигурация хоста в инсталляции — Dell R720XD. В нем установлены по 2 процессора Xeon E5–2670, 256 гигабайт оперативной памяти, массив дисков SAS15K по 600 гигабайт каждый с Raid–контроллерами. В каждом сервере 2 блока питания минимум с двукратным запасом мощности и 2 сетевые карты.



    В качестве внутренней сети используется сетевое оборудование Arista, Juniper и Cisco в стеке с резервированием, обеспечивающее 10-и гигабитную сеть между хостами (с возможностями роста по мере необходимости). В московской локации сеть уже выросла до 20-и гигабит. Нет особой проблемы в масштабировании сети, но расти надо по мере загрузки существующего оборудования.



    На скриншоте выше используемая в InfoboxCloud в Амстердаме Arista 7050T (описание).

    Топовое оборудование, используемое в инсталляции мы не раскрываем, чтобы не давать почву для размышлений конкурентам. Однако связавшись с нами можно узнать больше необходимых деталей.

    Программное обеспечение

    На каждый сервер установлена операционная система Parallels Cloud Server, позволяющая создавать виртуальные машины с контейнерной и гипервизорной виртуализацией. В качестве хранилища используется распределенная файловая система Parallels Cloud Storage, обеспечивающая высокую доступность виртуальных машин даже в случае выхода из строя части кластера или отдельных серверов. Технология обеспечивает быструю живую миграцию виртуальных машин и контейнеров между хостами без необходимости переноса данных виртуальных серверов.

    Управлением облаком занимается связка Parallels Operations Automation (POA) и Parallels Business Automation (PBA). POA позволяет управлять сотнями хостов в кластере облака, а Parallels Business Automation (PBA) отвечает за биллинг. Панель управления panel.infobox.ru – часть POA, которую видят пользователи. Облачная часть POA – Parallels Automation for Cloud Infrastructure (PACI), выполненная в виде модуля к POA.

    В PACI входят компоненты:
    • Instance Manager (IM). Отвечает за управление всеми операциями в модуле PACI. Когда пользователь дает команду на создание сервера, изменение параметров и т.д. — команда передается IM и менеджер координирует ее исполнение;
    • IM Database. База данных, используемая IM;
    • PCS nodes. Хосты с Parallels Cloud Server. Используются для исполнения облачных серверов и организованы в Cloud Storage кластер для распределенного надежного хранения виртуальных машин.
    • Storage nodes. Отдельный вид серверов, используемый для бекапов вне Cloud Storage. Если пользователь активирует резервное копирование облачного сервера, оно выполняется на Storage nodes.

    Для централизованного управления и мониторинга используется Parallels Virtual Automation (PVA), интегрированная с Cloud Server. В сферу ответственности PVA входит управление и мониторинг физических серверов: добавление, группировка, вывод из эксплуатации, управление пулами IP–адресов, бекапы управляющих хостов, мониторинг в реальном времени ресурсов каждого физического сервера.

    Распределенное отказоустойчивое хранилище Cloud Storage объединяет PCS хосты в кластер и состоит из 3-х компонентов:
    • Сервер метаданных (Metadata Server, MDS). MDS управляет метаданными (описанием данных) и контролирует, как файлы виртуальных машин разделяются на фрагменты и где хранятся. MDS так же отслеживает версии фрагментов и удостоверяется, что кластер имеет достаточно реплик. MDS запущен одновременно на нескольких серверах для обеспечения высокой доступности. Так же MDS хранит глобальные логи всех событий, происходящих в кластере.
    • Сервер фрагментов (Chunk Server, CS). CS отвечает за хранение фрагментов данных пользователей и предоставляет доступ к данным. Для обеспечения высокой доступности CS запущен на всех хостах.
    • Клиенты. (Clients). Клиенты получают доступ к данным, взаимодействуя с MDS и CS. В качестве клиента выступает Parallels Cloud Server. Контейнеры и виртуальные машины в облаке запускаются напрямую из кластера Cloud Storage.

    Ниже показана схема работы Cloud Storage:



    Виртуальные серверы работают из Cloud Storage. Eсли ломается PCS хост в Cloud Storage — пользователь продолжает работу и ничего не замечает. Если на этом PCS хосте в данный момент исполнялся облачный сервер — он перезапускается на другом PCS-хосте без необходимости миграции данных и работа продолжается. Все это сделано, чтобы обеспечить гораздо более высокую надежность, чем у выделенных серверов, более высокую скорость работы дисковой подсистемы и равномерность нагрузки на диски от клиентов, распределяемую в кластере.

    Возможна перезагрузка облачного сервера пользователя в случае некоторых обновлений на хост-машинах (о которых предупреждается заранее), однако использование 2х локаций InfoboxCloud позволяет создавать решения, при которых даже перезагрузка, занимающая от нескольких секунд на один контейнер (в случае использования контейнерной виртуализации) до нескольких минут на одну vm (в случае использования виртуальных машин) прошла незамеченной для критичных к доступности проектов.

    Бекапы хранятся на Storage–хостах вне Cloud Storage. Так достигается еще большая надежность облачной системы. В Cloud Storage нет единой точки отказа в оборудовании, а использование внешних бекапов резервирует Cloud Storage.

    За все время существования московской и амстердамской локации (а так же за длительный период тестирования) никаких инцидентов в них не было, но мы учитываем самые разнообразные потенциальные проблемы, сделав инфраструктуру InfoboxCloud устойчивой к ним и подходящей для enterprise–заказчиков. Практически все, что появилось в InfoboxCloud и продолжает появляться — реакция на потребности корпоративных клиентов, имеющих бизнесы, работающие 24x7 в федеральном и международном масштабе.

    Мы надеемся, что эта статья сделала InfoboxCloud более прозрачным для наших пользователей. Понимать, что происходит в облаке очень важно, чтобы проектировать действительно надежные системы, которые не рассчитывают на магию маркетинга и величину рекламных бюджетов, а используют знания о реальных технических возможностях облака.

    Пробная версия

    Попробовать InfoboxCloud бесплатно в одном из дата-центров в Амстердаме или Москве можно, зарегистрировавшись по этой ссылке. Если вам нужно больше ресурсов для тестирования, чем в пробной версии — напишите на trukhinyuri@infoboxcloud.com и мы выделим необходимое количество ресурсов для тестирования самых нагруженных и критичных к доступности проектов.
    Infobox
    34,21
    Компания
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 33

      +1
      О, крутота :) А куда бэкапите многотерабайтные пулы Cloud Storage? Какая конфигурация у «Storage nodes. Отдельный вид серверов, используемый для бекапов вне Cloud Storage»?
        +1
        «Перезагрузка занимающая от нескольких секунд (в случае использования контейнерной виртуализации)» — самое быстрое, что может выдать vzreboot (кривоватый аналог reboot less reboot) — это около 15 минут на ровно такой же конфигурации, от запуска команды ребута до подъема последнего контейнера.
          +1
          Как у вас работает бэкап силами PCS/PVA?
            +1
            И еще вопрос — PCS/S научился работать с контроллерами Adaptec? Зачем вообще нужны контроллеры для Cloud Storage? Они используются как HBA?

            Используется ли рекомендованное вендором SSD кэширование?
              0
              PCS/S научился работать с контроллерами Adaptec?

              Да, научился.
              Зачем вообще нужны контроллеры для Cloud Storage? Они используются как HBA?

              Да
              Используется ли рекомендованное вендором SSD кэширование?

              Нет
                +1
                Тогда как Adaptec оказался в Dell? Dell такую конфигурацию 100% поддерживать и собирать не будет. Это самособор?
                  +1
                  Нет, используются сервера Dell с поддержкой. В статье была неточность, исправлена.
                    0
                    В комментах значит та же самая неточность? То есть PCS/S так и не умеет Adaptec?
                      0
                      Нет, в комментах все верно. Adaptec использовался в другой локации.
              –1
              Cloud Storage кластер очень надежен и не имеет точки отказа, поэтому в дополнительном бекапе всех данных нет необходимости. Однако пользователь может включить резервное копирование своего облачного сервера и оно будет выполняться на хосты вне Cloud Storage.
                +2
                А первая строка из гайда по интеграции PCS:S говорит «БЭКАПЬТЕСЬ НА ОТДЕЛЬНЫЙ НЕЗАВИМИСИМЫЙ МАССИВ» =)
                  –2
                  Есть конечный пользователь, есть админ. Для конечных пользователей есть конкретный функционал бекапа. Админ же в свою очередь сам решает, что бэкапить или не бекапить в зависимости от требований, предъявляемых к его инфраструктуре. Гайд к PCS, это гайд для админов. Эта строчка, для несознательных админов, Которые не делают бекапов компонентов администрирования. Мы делаем.
              +1
              >>однако использование 2х локаций InfoboxCloud позволяет создавать решения, при которых даже перезагрузка, занимающая от нескольких секунд (в случае использования контейнерной виртуализации) до нескольких минут (в случае использования виртуальных машин) прошла незамеченной для критичных к доступности проектов.

              А как у вас связаны обе локации и чем осуществляется репликация или бесшовная миграция клиентского инстанса между локациями?
                0
                Обе локации независимы. Непрерывная репликация всех клиентов облака сделала бы цену на услугу фантастически большой из-за стоимости каналов между локациями. Однако если программная система клиента готова к работе на распределенных виртуальных серверах — она может работать надежно и между несколькими локациями. В критически важных системах необходимо предусматривать такой вариант в самой архитектуре используемого ПО. В самом простом примере клиенты легко могут выполнять репликацию своих баз данных в другую локацию и переключаться на нее при необходимости.
                  0
                  А как же смена IP-адресов и вся работа с DNS?
                    0
                    Фактически при доступности одного ДЦ решения типа Virtual IP не нужны из-за Cloud Storage. Дата-центр имеет много аплинков, электропитание резервируется + используйте DNS с низким TTL.
                      0
                      >> В самом простом примере клиенты легко могут выполнять репликацию своих баз данных в другую локацию и переключаться на нее при необходимости.
                      При такой конфигурации и независимых локациях у инстансов будут разные IP и при переключении с одного на другой будет даунтайм на время обновления DNS-кэша. Разве нет?
                        0
                        будет, если один дата-центр уйдет в офлайн, где установлен балансировщик в cloud storage. Мы используем надежные дата-центры.
                          0
                          Бррр, трижды перечитал Ваш пост. Virtual IP работает в пределах ДЦ и если ДЦ, куда он привязан кувыркнется — кувыркнется и услуга. Как Вы предлагаете защищать доступность сервиса на случай вылета либо первого либо второго ДЦ? Фраза про надежные ДЦ — звучит по меньшей мере странно, ДЦ, которые не падали целиком — на планете можно пересчитать по пальцам.
                0
                А Ариста классная… хотеть такую вместо домашнего свича :) Как она в боевых условиях?
                  +1
                  отлично себя показывает
                    +1
                    хотеть такую вместо домашнего свича

                    Что вы дома все такое делаете, что такой свитч нужен?
                      0
                      Высоконагруженный сетевой софт тестируем — fastnetmon :) К сожалению, не дома, в ДЦ, дома было бы удобнее, но у меня же нет такого крутого свича! :)
                      0
                      Главный сетевой вендор для решений, где нужна минимальная задержка. Например электронные биржи
                      0
                      >>Для централизованного управления и мониторинга используется Parallels Virtual Automation (PVA), интегрированная с Cloud Server. В сферу ответственности PVA входит управление и мониторинг физических серверов: добавление, группировка, вывод из эксплуатации, управление пулами IP–адресов, бекапы управляющих хостов, мониторинг в реальном времени ресурсов каждого физического сервера.

                      Насколько я знаю, PVA не умеет бэкапить управляющую хост-ноду… Да и ведь у PSC:S нет точки отказа? И «функция» мониторинга тоже весьма сомнительна, так как нет никакой системы оповещения…
                        0
                        У Parallels Cloud Storage нет единой точки отказа. Отказать может управляющий хост, который бекапируется. Он не является частью Cloud Storage и не влияет на сохранность данных пользователей. Мы используем не просто Cloud Server + Storage, а PACI + дополнительные собственные инструменты.
                          0
                          Есть, это софт. Одинаковая копия софта с одинаковыми багами, работающая на всех узлах. Возникает условие (високосная секунда, 30 февраля, просто «так байты сложились») — и вся конструкция складывается. Синхронно.
                            0
                            1. Софт проходит тщательное тестирование и в Parallels и у нас
                            2. ПО обновляется не синхронно на всех хостах. Есть возможность раннего обнаружения проблем до их влияния на пользователей.
                            3. Есть возможность бекапа вне Cloud Storage для пользователей.
                            4. Мы не обновляем одновременно обе локации.
                            5. Точка отказа все-таки есть — планета Земля. В данном случае речь идет про возможность выхода из строя оборудования и надежной работы при этом.
                            Люди не идеальны и не научились создавать идеальные вещи и технологии в принципе, но научились делать вычислительные системы гораздо более надежными, чем раньше.
                              0
                              Софт проходит бла-бла-бла. Извините, но мы все помним, как vmware выключила нафиг все виртуалки у всех клиентов из-за бага в сервере лицензий.

                              При обновлении обновляется микроскопическая часть кода. Большая часть кода не меняется годами — и баги там могут жить тоже годами и десятилетями. Например, недавно был устранён баг в BSD (в той самой, первой), который существовал 20+ лет.

                              Я же говорил про другое: у любой кластерной системы есть фатальная проблема — это синхронные ошибки в синхронном коде.

                              Так что говорить про отсутствие единой точки отказа не стоит. «Нет единой точки отказа в оборудовании» — больше поверю.
                                0
                                Само собой, об этом и написали. В статье поправим. Спасибо.
                            0
                            Stray bug crashes one node after the other:
                            image
                          0
                          А как балансировка нагрузки выполнена? (https)
                            0
                            https балансировка запланирована в будущих релизах облачного ПО. Сейчас для https можно самостоятельно настроить балансировщих внутри виртуальной машины

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое