OCP Experience Lab — как мы строили мини-ЦОД в офисе

    Начиналось всё с создания стенда для тестирования серверов нашей собственной разработки. Потом стенд разросся и мы решили сделать небольшой датацентр для пилотирования различных софтовых решений. Сейчас это единственная в Россси и вторая в Европе лаборатория OCP Experience Lab.


    Вообще я недавно в разработке вычислительной техники. Мне это всегда казалось чем-то невозможно сложным и доступным только огромным командам с очень большими бюджетами. И, наверное, поэтому очень привлекательным. В прошлом году звёзды сошлись и мне удалось привлечь инвесторов и найти стартовых клиентов, чтобы запустить свой собственный проект создания российского сервера. Выяснилось, что в России в этом направлении работает пара десятков команд совершенно разных размеров и специализаций. Одни просто привозят комплекты деталей от тайваньских производителей и делают в России только сборку, а другие копают сильно глубже, вплоть до написания собственного BIOS. Короче, стало понятно, что тема хоть и сложная, но вполне посильная.

    Для старта разработки выбрали сервера стандарта OCP. ОСР это Open Compute Project, открытое сообщество, в котором конструкторская документация на все продукты выкладывется в открытый доступ для свободного использования. Настоящий Open Source Hardware, и как следствие, самый прогрессивный, бурно растущий и перспективный стандарт, к тому же продвигаемый преимущественно не поставщиками, а потребителями оборудования. Помимо всех технических преимуществ, открытая документация должна была упростить нам старт разработки и ускорить встраивание в такую тяжелую тему, как серверное железо. Но это, наверное, тема для отдельной статьи.

    А компанию, кстати, назвали GAGAR>IN.

    GAGAR>IN — российский разработчик и производитель серверов и систем хранения данных стандарта Open Compute Project. Компания самостоятельно разрабатывает механику, электронику и встроенное ПО, управляет поставками комплектующих и производит свою продукцию на площадках российских контрактных производителей. Разработка осуществляется на основе открытой документации OCP, благодаря чему GAGAR>IN остаётся одним из немногих российских производителей серверов, не использующим документацию и комплектующие китайских и тайваньских ODM-производителей.

    Готовимся

    Моё же личное знакомство с ОСР состоялось лет пять назад, когда я участвовал в продвижении решений американской Stack Velocity на российский рынок. Уже тогда у нас была идея локализовать их производство и сделать собранные в России сервера с открытой документацией для нужд госкомпаний и госзаказчиков. Но тогда импотрозамещение было ещё не в тренде, и все потенциальные заказчики в итоге предпочли купить тайваньское оборудование. Именно тогда произошел первый сдвиг в популяризации OCP в России: Яндекс установил в свой новый датацентр как-бы-OCP сервера от небольшого тайваньского вендора AIC, а Сбербанк, РЖД и Mail вовсю тестировали полноценные OCP решения от гиганта Quanta, крупнейшего мирового производителя вычислительной техники.

    С тех пор прошло довольно много времени и поэтому первым шагом моего плана было обойти всех основных вендоров и ближайших дистрибьюторов OCP, чтобы подружиться, запартнёриться и посмотреть-пощупать реальные железки. До начала карантинных ограничений я чудом успел объехать с десяток поставщиков в России, Тайване, Китае и Европе — это был стремительный и весьма продуктивный тур, из которого стало многое понятно. Не боги горшки обжигают и у нас точно есть шанс успешно воспроизвести сервер OCP, и более того — сделать его немного лучше по характеристикам.

    Сборочная линия небольшого тайваньского производителя серверов
    Сборочная линия небольшого тайваньского производителя серверов
    Калифорнийское производство серверов крупного азиатского производителя
    Калифорнийское производство серверов крупного азиатского производителя

    Одним из открытий погружения в мир серверов было то, что вендора не показывали образцы реальной продукции — чаще всего мы смотрели картинки презентации, и в лучшем случае инженеры притаскивали опытный образец какой-то одной модели. Только один раз удалось увидеть что-то похожее на шоу-рум — голландский дистрибьютор оборудования OCP собрал весьма нарядный стенд в дата-центре под Амстердамом.

    Стойка OCP Experience Center в Амстердаме выглядит очень красиво, но довольно бессмысленно
    Стойка OCP Experience Center в Амстердаме выглядит очень красиво, но довольно бессмысленно

    Стартуем

    Создание тестового стенда всегда стояло одним из первых пунктов плана развития компании, но то, что мы увидели в Голландии, понравилось нам настолько сильно, что было решено совместить стенд тестирования своего железа, шоу-рум и лабораторию для отладки программно-аппаратных решений клиентов в одном месте, назвав это OCP Experience Lab. То есть мы создадим лабораторию, максимально соответствующую духу открытых сообществ — удобное и легко доступное место, где и конечные потребители, и интеграторы могут своими руками пощупать и потестировать реальное, боевое и самое прогрессивное железо.

    Все эти наши прекрасные планы были перечеркнуты карантином, и первые тестовые стенды были собраны в спальных районах столицы “на коленке”, а специально арендованное под лабораторию помещение в центре Москвы стояло пустым.

    Тестирование новейшего сервера в домашних условиях
    Тестирование новейшего сервера в домашних условиях

    Насколько мне известно, в период карантина, даже рабочие места инженеров крупнейших мировых корпораций выглядели очень похоже.

    В июне, как только карантин немного ослаб, мы смогли начать сборку лаборатории нашей мечты.

    Затащить серверные стойки в неприспособленный под это офис - само по себе нетривиальная задача
    Затащить серверные стойки в неприспособленный под это офис - само по себе нетривиальная задача

    Наконец-то получилось собрать всё закупленное оборудование в одном месте и нормально установить в стойки. Нам повезло, что в помещении был трехфазный электрический ввод, и существовала возможность проложить оптику. Тем не менее, первое время, пока мы согласовывали с арендодателем проект, тащили оптику и подводили электричество к стойкам — всё наше оборудование работало от обычной розетки и через LTE модем. Причем из-за толстых стен и плотной застройки, этот модем пришлось приклеить скотчем к окну.

    Монтаж очередного сервера в стойку
    Монтаж очередного сервера в стойку

    И в первые же дни стало понятно, идея постоянно разместить системных инженеров в лаборатории была большой ошибкой — шум от оборудования стоит такой, что дольше получаса работать можно только в защитных наушниках.

    Три стойки, рабочий стол инженера и большой плакат - так выглядела наша лаборатория в сентябре 2020
    Три стойки, рабочий стол инженера и большой плакат - так выглядела наша лаборатория в сентябре 2020

    Комплектующие в лабораторию мы собирали со всего мира: заказали всё самое новое и интересное, что есть в мире OCP. В итоге у нас образовалось три стойки от трёх разных производителей, полтора десятка различных вычислительных серверов, несколько дисковых массивов и целых шесть коммутаторов! Такое многообразие позволило одновременно запускать два-три функциональных стенда и проводить на них долговременные тесты.

    Поначалу загрузили оборудованием и подключили только центральную стойку, левую — оставили для механических тестов и хранения отключенного оборудования, а правую — определили в резерв под будущее расширение.

    Что и как тестируем

    Очевидно, что первичная задача тестового стенда — проверка разработанного нами железа на функциональность, надежность и совместимость. Как-нибудь расскажу вам подробнее, как мы проводим эти тесты, как пишем методики и ведем протоколы испытаний. Но и на старте, когда наши собственные сервера были еще в проекте, лаборатория тоже не стояла без работы — тестировали продукты конкурентов и партнеров, выбирали периферию, готовили и апробировали те самые методологии.

    Всё началось с базовых тестов производительности железа. Мы прогнали через испытания множество компонент: модули памяти Samsung, Micron, Hynix; SSD от тех же Samsung, Micron и Intel; сетевые карты Mellanox, Broadcom, Emulex и Intel. И даже сравнили между собой процессора Intel SkyLake и AMD EPYC2.

    Но понятно, что лаборатория — не только место для тестирования новых железок. Потребители не бенчмарки будут мерять, им нужны рабочие программно-аппаратные конфигурации. И поэтому мы стали потихоньку собирать конфигурации различного софта и проверять его работоспособность и производительность. Начали с российских Линуксов: Альт, Астра и Роса. На базовых тестах всё прошло без сюрпризов - возможно стоит делать более глубокие исследования и сравнение в сложных задачах. Потом собрали несколько различных стендов систем виртуализации. Для начала попробовали VmWare, Proxmox, Virtuozzo — с ними также всё прошло довольно гладко и скучно. Мы сохранили конфигурации и решили вернуться к этим системам позже, уже с реальными клиентскими задачами.

    Так как основная идея OCP — оборудование без излишеств, то всё разнообразие функционала перенесено на уровень софта. Фактически, любые конфигурации собираются из двух «кирпичиков» — вычислительного сервера и присоединяемого к нему дискового массива JBOD (Just a Bunch Of Discs). Мы же собрали в лаборатории несколько различных исполнений как серверов, так и дисковых массивов, и следующим логичным шагом было тестирование их совместной работы.

    В ходе всех этих тестов, постоянного конфигурирования и переконфигурирования серверов и сетей, стало понятно, что без полноценного мониторинга систем нам не справиться, и с этого момента у нас завёлся Zabbix.

    Дашборд Zabbix
    Дашборд Zabbix

    Одним из неожиданных открытий после запуска Zabbix, стало то, что мы обнаружили повышение температуры в лаборатории ночью. Оказалось, что так как мы находимся в обычном офисном центре, арендодатель ночью выключает центральное кондиционирование. Оно и без того жарким летом еле справляется с охлаждением наших стоек, но оказывается ночью температура в нашем импровизированном датацентре регулярно превышала 35 градусов:

    Кстати, одним из преимуществ оборудования OCP, является его способность работать при температурах до 30 градусов, а максимум допустимой температуры составляет как раз 35 градусов. Получилось, что мы сами того не желая, устроили своего рода стресс-тест нашим серверам. Но всё же оставлять серверную без кондиционирования опасно — ещё несколько серверов и температура уползёт под сорок, да и клиентов приводить в такую жаркую комнату неудобно.

    Финальный рывок

    Наши продажники всегда просили красивый шоу-рум, но я до последнего надеялся обойтись малой кровью. Чистенько, удобно, функционально — и достаточно. Однако в планах было сделать большой анонс открытия лаборатории уже в октябре и для этого нужно было снять небольшое видео. Позвали съемочную группу и получили суровый приговор — дорисовывать красоту в кадре будет не сильно дешевле, чем сделать нормальный, полноценный ремонт. В результате торжественное открытие лаборатории отложилось ещё на пару месяцев, и появились дизайнеры, чтобы "сделать красиво".

    Один из первых вариантов дизайна
    Один из первых вариантов дизайна

    Дизайн и ремонт мы заказали у застройщиков выставочных стендов — они как никто умеют делать яркие конструкции. Месяц согласований, месяц строительства — и получилось вот так:

    Лаборатория после ремонта
    Лаборатория после ремонта

    Теперь можно было проводить официальное открытие и снимать полноценное видео:

    В итоге, у нас есть не только лаборитория, шоурум, но и удобная съемочная площадка для производства серии видеороликов про оборудование Open Compute. И мы даже завели для лаборатории отдельный сайт ocplab.ru


    Так что продолжение следует!

    Самое главное - табличка на входе!
    Самое главное - табличка на входе!

    GAGAR>IN
    Компания

    Похожие публикации

    Комментарии 20

      +2
      кучу серверов завязаны по сути на 2 элемента питания. Что произойдет при КЗ от пыли или пыльцы в одном из серверов?
      Пластик сплошной и это очень плохо, при не том нажатии мы лишаемся запчасти, которую сложно купить как минимум
      Кол-во нужных переходников на 19' зашкаливает, APC, свитчи, патч-панели…

      Полный отход от малого и среднего бизнеса, т.е. рассчитано под какие-то мега проекты (кучу иностранных комплектующих под видом РФ проекта???), это потеря очень громадного рынка, опять же внешний вид скелетов…

      Удачи в начинаниях!
        +3
        Это всё же оборудование для датацентра. Проводящая пыль — это какой-то цех. Если будет замыкание на единичном сервере — он отключится, шина питания при этом не обесточится.
        С запчастями как раз проблем нет никаких, так как можно от любого производителя использовать без проблем.
        UPS 19" не нужен в этих стойках — там стоят батареи на 21", патч-панель это тоже про телеком или про универсальную стройку в офисе.
        OCP и стойка Open Rack всё же про дата-центры. Большие, маленькие — не важно, но в любом случае выделенные и специализированные. Это не стойка в углу офиса.
          0
          Проводящая пыль — это реальность дешёвых датацентров России, мы так размещались в ИКИ, да-да перед нашей стойкой просто открыли окно, которое за старостью закрыть нельзя и за полгода мы не смогли договориться об чем-то, и вообще походив по разным ДЦ мы столкнулись что только 10к пригоден для чего-то и это по Москве

          С запчастями как раз проблемы есть, т.к. на avito, ebay такие запчасти не представлены, а вот найти защелку под заказ у какого-то поставщика это тот еще вопрос, да и мне, сломавшему инженеру, это будет ну вообще адом с потерей работы, при том бы, я не сказал что ваши защелки на видео сильно логичны. Очень советую взглянуть на подход supermicro в этом деле, где серверные корпуса не меняются лет 15, в них вставляются обычные ATX и все логично и доступно на рынке БУ, а хочешь производительнее докупи новый backplain к 10летнему серверу и будет SAS3.

          шина питания при этом не обесточится — проводились ли тесты? При отказе одного блока блоков питания вся нагрузка резко уйдет на второй и тут как бы киловат 3-5 резко перескочит, как себя поведут, выдержат ли нагрузку? Это очень важный момент, так как даже сервера такие скачки не всегда держат (на примере supemicro, intel), а переключения питания часты даже на присловутом М9

          всё же про дата-центры — Об этом и речь, что вы отсекли все мелкие и средние фирмы, оставив только гос контракты, которые работают ну совсем по-иному и там еще есть вопрос совместимостей, часто в госконтрактах прописан строго хувей! Т.е. вы себе отрезали 70% заказчиков, что имхо несколько глупо. Да и некоторые фирмы вырастают из стойки в серверной в нечто большее, Т.е. выбрать вашу систему, да круто, но за такое и уволить потом могут, ибо она слабо с чем совместима
            +1
            Проводящая пыль убъет электронику сервера и коммутаторов намного раньше, чем сделает КЗ по питанию на входе. Независимо от модели этого сервера.

            По запчастям — наличие деталей на авито это вопрос развитости вторичного рынка. Со временем он появится. В нашу пользу тот факт, что помимо нас есть ещё 4 крупных производителя, у которых детали совместимы с нашими.

            Тесты на КЗ в одном из потребителей конечно проводятся. По отказу блоков питания — есть две типовые схемы резервирования: N+1 и N+N. То есть один блок питания в резерве, или половина блоков в резерве. И это тоже тестируется.

            70% мелких заказчиков, про которых вы говорите — это всего лишь около 10% рынка в деньгах. И для них мы тоже кое-что готовим, чуть позже. А про Хуавей не переживайте — мы справимся с ними.
        +4
        А в чем плюсы такого решения по сравнению с обычными вендорскими серверами?

        Например, делаем мы маленький ЦОД. Можно взять супермикро, можно хуавей, можно делл какой-нибудь. Где в этой картине OCP и вы? Дороже/дешевле, качественнее, кастомизируемее, поддерживаемее? Кто и на каких условиях обеспечивает SLA на замену?

        (Подозреваю, немного глупые вопросы, я не очень в теме OCP как такового)
          +3
          Мы немного дешевле и в покупке и в обслуживании. У нас SLA как у Делла, но разработчики сидят в России и поэтому мы можем реагировать на сложные вопросы быстрее. У нас нет Vendor Lock на запчасти — это большая экономия на апгрейде. Плюс к этому за нами сообщество OCP, то есть мы предлагаем сервера конструктивно более надежные, обкатанные на датацентрах Фейсбука.
          0
          Как и многие тут, я был совсем не в теме ОСР. Интересное начинание.
          Вопрос: Есть ли у вас материал про Bare-metal коммутаторы? Мне интересно, какое сочетание open source OS — железо наиболее перспективное? Я вот некоторое время думаю о внедрении Bare-metal в телеком с выносом некоторых вычислений на край сети. Например, DNS резолвер, dhcp сервер прямо на коммутаторе доступа.
            +1
            Мы не большие спецы в bare-metal коммутаторах. Хотя в OCP это большая и мощная тема. Мы сами используем Edgecore — классический bare-metal. Поверх него Cumulus, хотя сейчас из-за политики nVidia, будем мигрировать на Sonic. Если Sonic вас заинтересует — смотрите ресурсы OCP, там много материалов по нему.
            +1
            Куча вопросов…
            1. Про питание. В видео, на 03:48 при вытаскивании юнита из стойки, видно что юнит отключается от шины питания. А как тогда обеспечивается горячая замена дисков в JBOD-ах? Как там обеспечивается непрерывность питания?
            2. Совместимы ли между собой шасси для JBOD-ов и для серверов? Если да, то есть-ли возможность установки в одно шасси одного сервера + две хранилки или двух серверов + хранилка? Или-же дисковое шасси целиком является JBOD-ом?
            3. Насколько совместимы, между собой, компоненты разных вендоров? Хотя-бы те-же корзины для дисков.
            4. Существую-ли OCP стойки малых габаритов? Не для ДЦ.
            5. Что по ценам, по сравнению с традиционными производителями?
            6. Что по удалённому управлению и мониторингу?

            Но вообще конечно выглядит красиво! Испытал визуальный оргазм, от технологичности.
              –1
              Любой крупный вендор покажет такие «технологичные» стойки
              Здесь скорее представлена концепция, и ваши мелкие вопросы не получат полного ответа
              т.е действовать на свой страх и риск и в темноте с фанариком тусклым и не дай бог сломается, огребешь…
              все нестандартное, прикрывающиеся за %эффективности.
                0
                Тут как раз совсем другая история — есть сообщество OCP, и всегда есть у кого спросить. И сообщество активно растет и в России и в мире.
                +4
                1. При замене дисков в JBOD юнит (полка) не вытаскивается и не отключается. Вытаскивается только один лоток с дисками из полки, при этом он остаётся подключенным. В серверах другая история — при вытаскивании лотка он отключается от питания.

                2. Нет, шасси (полки) не совместимы по причине п.1. Комбинировать в рамках одной полки сервера и JBOD не получится.

                3. Если вендора производят продукцию OCP Accepted, то компоненты совместимы в определенной мере. Насколько глубоко — зависит от вендора и модели. Обычно поставить «чужой» сервер в полку можно, но корзины дисков перекинуть нельзя. Хотя у нас с некоторыми моделями конкурентов и корзины дисков совместимы.

                4. Есть стойки высотой 20OU и есть переходники для установки серверов и JBOF в 19" стойки

                5. Цены обычно ниже, так как нет наценки за бренд. Но цена в первую очередь определяется скидкой на процессор, поэтому всё сильно индивидуально.

                6. IPMI и Redfish поддерживаются, есть плагины в Zabbix.

                Спасибо за очень конкретные вопросы!
                0
                Начиналось всё с создания стенда для тестирования серверов нашей собственной разработки.

                Все же пока ещё речь идет о локализации?
                image
                  +1
                  Я не понял в чем вопрос. Facebook расшарил свою документацию на сервер, мы на её основе разработали и произвели свою модель. Называйте это как хотите, но до нас это cмогли сделать только пара крупных Тайваньских ODM
                    –1
                    А до какого уровня эта документация? Конструктив, понятно. Крупноблочно тоже описывает. А наборы конкретных микросхем? А конкретную схемотехнику решения? Разводка плат?
                      +1
                      Вплоть до проекта в Cadence. И 3D в Step. Но всё с проблемами. Не думаю, что специально эти проблемы как закладки оставили — скорее публиковали чисто формально, без мысли, что кто-то воспроизведет. Ну и софт только в бинарниках и не весь — бесполезно.
                      В итоге всё пришлось переделывать, используя документацию как референс.
                  0
                  В целом весьма интересно, но некоторые вещи выглядят сомнительно. Например, переход на 21" при сохранении внешней ширины стойки (имеется в виду 600мм, правильно?) обозначает уменьшение внутреннего пространства между оборудованием и стенками шкафа, где часто прокладываются кабели. Если в шкаф надо устанавливать многопортовые патч-панели, это создаёт дополнительные серьёзные проблемы, особенно если используется кабель вроде категории 6a — он может быть весьма негибким. Если же предполагается, что стойки OCP вообще не предназначены для подобных задач, а только для серверов в ЦОДах, то это дополнительно заметно снижает сферу потенциального применения.
                    0
                    Идея в том, что для телекома нужны 19-дюймов. А для датацентров выгоднее сделать новую стойку, специализированную.
                      0
                      В малом и среднем бизнесе телеком и обработка данных часто вообще не разнесены.
                    +1
                    Доброго времени суток!

                    Подскажите, был ли опыт создания кастомных стоек (стеллажей), совершенно неформатных. У меня возникла задача построения лабораторного стенда с оборудованием (совокупность микро-серверов, кастомные платы, наборы дисков), для чего требуется что-то вроде гибкого конструктора. Все что нашел — это довольно габаритные и грубые конструкционные профили.

                    Может быть кто-то сталкивался с изящным решением данной задачи?

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое