Решение Therascale OCS

    В предыдущем материале про Open Compute Project мы рассказали о инициативе Facebook по распространению открытой платформы для построения гипер-ЦОД. Идея проста — существующие решения для эксплуатации пригодны мало, нужно создать то, что подойдет именно тебе.

    В своем блоге Microsoft много рассказывает, как использовать облачный сервис Azure, построенный на их инфраструктуре. Инфраструктура, как оказалось, тоже разработана «с нуля» под видение Microsoft.

    Процесс публикации своей платформы оказался заразным, к инициативе присоединилась компания Microsoft и поделилась своим видением оптимальной инфраструктуры, а мы расскажем об этом подробно.





    Основные особенности
    1. Ширина стандартная, 19 дюймов. Шасси высотой 12U.
    2. Единая система охлаждения и питания.
    3. Единая система управления серверами.
    4. Все обслуживание не затрагивает кабельное хозяйство (если только проблема не в коммутаторе).
    5. Используются стандартные PDU.
    6. Блоки питания совпадают с нашей стоечной линейкой по форм-фактору.



    Вид полной стойки

    Подробно про архитектуру


    Структура

    Шасси — корыто сложной формы, в которое устанавливаются корзины с универсальными объединительными платами для серверов и дисковых полок, плата распределения питания, блоки питания, контроллер удаленного управления и стена текста вентиляторов.


    Вид сзади

    Шесть больших вентиляторов (140*140*38) объединены в единый блок на откидной дверце, управление идет с контроллера шасси. Дверца закрывает порты ввода-вывода и пространство для кабелей, где проложены специальные каналы для аккуратной разводки и монтажа.



    Microsoft использует стандартные 19" стойки высотой 50U, из которых 48U заняты непосредственно серверами, а еще 2U выделены для коммутаторов. Блоки питания и PDU расположены с одной стороны стойки и не занимают, в отличие от OCP, места.



    В каждом шасси встроен сервисный модуль (о нем подробней позже) и расположены 6 блоков питания (точно таких же, как в наших моделях RS130 G4, RS230 G4) по схеме 5+1.


    Вид корзины сзади

    Хорошая идея — вне зависимости от используемых модулей, набор портов на корзине одинаков. Всегда выведены два SAS порта, два порта SFP+ и два порта RJ45, а что к ним будет подключено со второй стороны — определяется на месте.

    Сравнение форматов
    Open Rack Open CloudServer Обычная стойка 19”
    Внутренняя ширина 21” 19” 19”
    Высота стойки 2100 мм (41 OU) 48-52U, 12U/Chassis 42-48U
    OU/RU OU (48 мм) RU (44.45 мм) RU (44.45 мм)
    Охлаждение В системе (HS/Fixed) Стена вентиляторов (6 штук) В системе
    Размер вентилятора 60 мм 140 мм Варьируется
    Силовая шина 3 пары
    Силовые зоны/бюджет 3, бюджет до 36 кВт 4, бюджет до 28 кВт
    Силовая полка Спереди Сзади
    Размер силовой полки 3 OU 0 U 0 U
    Встроенный ИБП Да Да (скоро будет) Нет (но поставить любой никто не мешает)
    Управление стойкой Да, RMC (но не стойкой целиком) Да, CM
    Идентицификация лезвия ( Sled ID ) Нет Да (в шасси) Нет
    Кабели Спереди Сзади Спереди или сзади


    Эффективность системы охлаждения
    Полное потребление системы 7200 Вт (24 лезвия x 300 Вт)
    Внешняя температура (°C) Скорость вентиляторов (%) Потребление вентилятора (Вт) Потребление вентиляторов (Вт) Процент потребления от стойки (%)
    25 66 19,2 115,2 1,6
    35 93 40,2 241,2 3,35


    Система управления


    Chassis manager

    Сервер управления вставляется и извлекается «на горячую», программная часть построена (что не удивительно) на Windows Server 2012. Исходный код доступен для широкой публики и каждый может внести свои правки (инструментарий используется бесплатный).


    общая идея


    Непосредственно плата

    Функционал:
    • Input/Output (I/O):
      — 2 x 1GbE Ethernet (для доступа к сети или управления коммутаторами ToR)
      — 4 x RS-232 (Подключение к коммутаторам для управления их загрузкой)
      — Управление питанием (один вход, три выхода для подключения PDU или другого CMM)
    • Windows Server 2012
    • Горячая замена модуля
    • Железо:
      — Встроенный процессор Atom S1200
      — 4GB памяти с ECC
      — 64GB SSD
    • TPM модуль как опция
    • Встроенные мультиплексоры для коммуникаций с лезвиями
    • Управление питанием лезвий выведено отдельно (так надежней)



    Разводка шин


    Как это проходит через разъемы

    Не забыта и программная часть:


    Логическая схема

    Out-of-Band часть
    • CM имеет REST-подобное API и командную строку CLI для масштабирования системы управления
    • Fan Control/Monitor
    • PSU Control/Monitor
    • Chassis Power Management ON/OFF/Reset
    • Serial Console Redirect
    • Blade Identify LED
    • TOR Power Control ON/OFF/Reset
    • Power Capping


    In-Band часть
    • BMC лезвия работает со стандартным IPMI over KCS интерфейсом
    • Windows — WMI-IPMI
    • Linux — IPMItool
    • Идентификация, Chassis Power, Event Logging, Temperature Monitor, Power Management, Power Capping, мониторинг HDD и SSD.


    Facebook полагается на возможности Intel ME, Microsoft пользуется ставшим уже привычным
    IPMI с помощью BMC.

    Лезвия



    Разработаны два типа лезвий, одно с сервером, другое JBOD на 10 дисков.


    Возможные комбинации

    Комбинировать, само собой, можно как угодно — хоть два сервера, хоть оба JBOD'ы.


    Кабели остаются на месте

    Кабели подключаются к бэкплейну, поэтому для замены лезвия достаточно просто извлечь корзину (существенное отличие от OCP). Такой подход снижает время на обслуживание и устраняет возможную ошибку при переподключении кабелей.

    Спецификация OCS сервер
    Процессор 2x Intel Xeon E5-2400 v2 на узел, до 115 Вт
    Набор микросхем Intel C602
    Память 12 DDR3 800/1066/1333/1600 ECC UDIMM/ RDIMM/ LRDIMM слотов на сервер
    Диски 4 3.5" SATA на сервер
    Слоты расширения [options=«compact»] * 1 PCIe x16 G3 * SAS mezz * 10G mezz
    Управление BMC-lite, подключенный к Chassis Manager с помощью шины I2C




    Слот PCIe предназначен для вполне определенной цели — использование PCIe Flash карт.


    Так разведены mezzanine платы

    Спецификация OCS JBOD
    Контроллеры 1 SAS Interface Module (SIM)
    Внешние порты 2 6Gb/s mini-SAS порта
    Диски 10 3.5" SAS/SATA с горячей заменой всей корзины
    Управление SCSI Enclosure Service (SES-2)



    Дисковая полка

    Сетевая инфраструктура

    Все сетевые подключения — 10G, гигабит используется только для управления и то не везде. Важный момент — Microsoft крайне активно работает над популяризацией Software Defined Networking (SDN) технологий, их собственные сервисы основаны на программно-конфигурируемых сетях.

    Не зря на прошлом Ethernet Summit их продукт для мониторинга SDN сетей, DEMon, получил шесть наград из шести возможных, а компания числится в списке платиновых спонсоров OpenDaylight.

    Заодно напоминаем, что у нас давно объявлен продукт для гибридных сетей с поддержкой SDN — коммутатор Eos 410i со стоимостью порта ниже $100 :)



    Итого

    Крупнейшие компании индустрии полагаются на Software Defined Datacenter и Microsoft не исключение. Развитие Ethernet технологий привело к тому, что 10G и RDMA (используется RDMA over Converged Ethernet, RoCE) позволяют обойтись без отдельной FC сети (о приросте от RDMA говорилось здесь: habrahabr.ru/company/etegro/blog/213911) без потери в производительности. Возможности Windows Storage Spaces таковы, что аппаратные СХД постепенно заменяются решениями на Shared DAS/SAS сетях (подробно писалось тут habrahabr.ru/company/etegro/blog/215333 и тут habrahabr.ru/company/etegro/blog/220613 ).

    Преимущества по версии MS:
    Дизайн на основе шасси снижает стоимость и энергопотребление
    • Стандартная стойка EIA 19"
    • Модульный дизайн упрощает развертывание: монтируемые боковины, 1U корзины, блоки питания высокой эффективности, большие вентиляторы для эффективного управления, плата управления с горячей заменой
    • До 24 серверов в шасси, опционально JBOD полки
    • Оптимизировано для контрактного производства
    • Снижение расходов до 40% и на 15% лучшая энергоэффективность по сравнению с традиционными enterprise серверами
    • Ожидаемая экономия 10,000 тонн металла на каждый миллион серверов (тут явно загнули, 10 Кг на один сервер многовато)

    Все сигнальные и силовые линии передаются через фиксированные разъемы
    • Разделение сервера и шасси упрощает развертывание и восстановление
    • Дизайн «без кабелей» уменьшает возможность человеческой ошибки при обслуживании
    • Снижение числа инцидентов, вызванных неплотно закрепленными кабелями
    • Снижение времени развертывания и обслуживания достигает 50%

    Сетевые и SAS кабели на едином бэкплейне
    • Пассивная печатная плата упрощает дизайн и снижает риск потери целостности сигнала
    • Поддерживаются различные типы сети и кабелей, 10/40G Ethernet и медные/оптические кабели
    • Кабели разводятся по шасси один раз, при сборке
    • Кабели не трогаются при работе и обслуживании
    • Экономятся сотни километров кабелей на каждом миллионе серверов

    Безопасная и масштабируемая система управления
    • Сервер в каждом шасси
    • Несколько уровней защиты: TPM при загрузке, SSL транспорт для команд, аутентификация на основе ролей из AD
    • REST API и CLI для масштабирования системы управления
    • На 75% удобней в работе по сравнению с обычными серверами


    Вывод

    Состоялось изобретение очередной инкарнации блейдов. Ключевое отличие от остальных
    — полностью открытые спецификации платформы и использование стандартных сетевых коммутаторов. В традиционных блейдах от известного круга компаний выбор сетевой части ограничен фантазией разработчиков, в открытом решении можно использовать любой из существующих продуктов, от б/у Джунипера до SDN коммутаторов собственной разработки.

    Ну а мы представили решение на базе Open CloudServer в линейке продукции.

    ETegro Technologies 27,37
    Компания
    Поделиться публикацией
    Ой, у вас баннер убежал!

    Ну. И что?
    Реклама
    Комментарии 17
      0
      У вас во многих ссылках пробелы (%20).
      –1
      Надежность jbod из 10-ти дисков крайне низкая. Кто такими решениями пользуется?

      И насколько удобно диски менять при такой компоновке?
        +1
        MS и пользуется.
        При их масштабах деятельности на отказоустойчивость одного элемента не обращают внимания совсем.
        Отказоустойчивость реализуется на уровне размазывания данных по датацентру.

        Есть у них подробный документ, где эта идеология описана.
          0
          Не только MS, поставляем аналогичные стойки одному известному поисковику. И да, это востребовано только в очень больших масштабах :)
            0
            Я вопрос читал как «конкретно эти полки», вообще подобными решениями пользуется много кто на планете и даже не в очень больших масштабах.

            Только на просторах 1/6 части суши со стойками как-то плохо.
          0
          Такая компоновка идет как правило при реально больших дисковых объемах. Когда выдернуть лезвие с дисками не приводит к остановке системы.
          А так сверху они втыкаются, у ряда производителей есть такая компановка.
          0
          У меня вопрос.
          Почему при разработке чего-то нового предусматривается тлько воздушное охлаждение?
          Разве не логично делать упор на развитие и предусматривать альтернативные варианты?
          Например, погружение в минеральное масло, жидкостные системы охлаждения с водоканалами в стойках.
            0
            Предположу что риск использования чего-либо жидкого сам по себе очень высок — что-то протекло и залило соседа.
            Добавим сюда требование под емкости для жидкостей и создание специальных полостей для циркуляции и еще турбины для создания потока.
            А воздух… он везде, он вокруг оборудования, оборудование в него уже погружено — только гоняй его и все.

            Ну или предложите Ваш вариант, опровергающий мои домыслы :-)
              0
              Погружение в масло прекрасно, пока тебе не надо обслуживать систему. Вынул платформу, подождал, пока стечет, уляпал все вокруг.
              Плотность по площади — радикально ниже. Ведь размещение не вертикальное, а горизонтальное. Плюс резко возрастает нагрузка на пол и совершенно другие требования к строению.
              Либо делать бассейн и нанимать аквалангистов :)

              Жидкостные системы с каналами в стойках не освобождают от необходимости продува. Либо делать чудовищно сложной формы радиатор и распаивать вообще все компоненты, включая память, на плате. Расширяемость убита, заменить сбойную память невозможно.

              Все оценки от выгоды альтернативных форм перекрываются стоимостью. Тем более, что современный ДЦ на воздухе с фрикулингом достигает PUE 1.07 (заявление ФБ).
              Оно реально кому надо?
              Если не покрасоваться, а эксплуатировать в масштабах.
              0
              В 2014 году, наконец, догадались в стойках вентиляторы распологать перпендикулярно воздушному потоку холодного\горячего коридора! Бинго! Всегда недоумевал, почему все производители упорно предлагают горизонтальные вентиляторные полки. Ждем следующие 5 лет, когда догадаются продувать рэк слева на право, открыв обратно фронтальные части стоек для обслуживания.
                0
                Можно пример горизонтальных вентиляторных полок?

                Продувать слева направо придется не одну стойку, а весь ряд, что проблематично.
                    0
                    Значит мы о разном говорим, в стойки с серверами такие полки ставить бесполезно.
                    Стоечные решения всегда были либо с вертикальными вентиляторными стенками, либо с индивидуальными вентиляторами.

                    Хотя мне попадались американские компании (весьма небольшие), которые делали блейды на стандартных компонентах с вертикальным продувом воздуха.
                    Что характерно, популярности такие варианты не получили.
                  0
                  Дуть воздух спереди назад стойки придумали сервачники, относительно недавно. Задолго до этого, когда компьютеров еще не было, телефонисты на АТС начали использовать дутье снизу навверх стойки. Удобно, если прецизионный кондиционер загоняет холодный воздух в фальшпол, не надо делать горячий/холодный коридоры. И сейчас магистральные телеком устройства имеют вертикальное расположение линейных карт, и обдув снизу вверх. Доступ к передней и задней панелям для обслуживания не затруднен.

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое