Comments 16
поскольку InfiniBand имеет малую рыночную долю, найти специалистов будет не так-то просто
Можете мне не верить, но Infiniband настолько прост, что не требует сетевых админов от слова «совсем», и специалисты заточенные и сертефицированные под Infiniband не нужны. Админы Linux, осваивают его минут за 20. Именно им и работать с Infiniband. Сетевым админнам там нет работы.
Главная проблемы Infiniband:
1. Большие дистанции (да Long Haul есть, но стоит (стоило года 3 назад) несообразно дорого), и если вы на 40км оптику проложили, и отдали под Infiniband то кроме Infiniband по этой оптике ничего не пойдёт. Также как и с FC впрочем.
2. Проблемы с дровами в enterprise дистрах (RHEL). Это просто кошмар какой-то. Под новыми ядрами и в gentoo/ubuntu всё отлично. Но для ubuntu 18LTS ядро пересобирать пришлось (под gentoo это вообще норма).
А у «Huawei Ai Fabric» как с вышеприведёнными пунктами, включая «привязку к вендору»?
Все как на первой картинке as-is to-be
С какими iNIC совместима фабрика?
В презентации https://e.huawei.com/en/material/networking/dcn/be80bbc977ac49afa73851e3d176dd6b есть только продукты коммутации (стр 6):
Modular switches CE12800 (ce12816 ce12808 ce12804), Fixed switches 25GE/100GE TOR Switch Flexible Card CE8861, 100GE TOR Switch CE8850, 25GE TOR Switch CE6865
В https://e.huawei.com/en/material/onLineView?MaterialID=2d91d86926e7467e815a5d54615a3ec8 упомянут "Commercial NIC" / iNIC (стр 10,11)
Бенчмарка — https://e.huawei.com/en/material/onLineView?MaterialID=2d91d86926e7467e815a5d54615a3ec8
The solution includes data center switches and smart network interface cards (NICs) based on 100GigabitEthernet (100GbE) and 25Gigabit Ethernet (25GbE). The Huawei solution uses… RoCEv2… Mellanox CX4 100GE NIC… PFC… ECN… Intel MPI Benchmarks
Сравнение с другими вендорами: https://e.huawei.com/en/material/onLineView?MaterialID=642a12984b0d49548d0235dcbeda3a9d https://e.huawei.com/en/material/onLineView?MaterialID=334f712b8f584d718d41e9c2ec172c67
По буллетам выглядит так:
1)Huawei HiSilicon 2nd Gen controller(Hi1822)
2)High-Performance Network/PCIe Interface
2 x 100GE/4 x 25GE
PCIe 3.0 x16
15 Mpps OVS offload
3) IN200 Ethernet Standard Card
Supports 100GE/25GE
IN500 iNIC
Supports OVS/VxLAN acceleration
4)HW and FW All Self-Developed
All PCBA designed by Huawei
All FW designed by Huawei
All products manufactured by Huawei
По чипам в коммутаторах — надо разделить историю на две части — networking и AI Chipset
В первом поколении Networking -это Broadcom чипы, во втором HiSilicon. Но в обоиъ поколениях необходим чипсет AI — Ascend для работы функций и тренированных моделей AI Fabric.
Где почитать про то, как работает AI Chipset в деталях?
- На каких данных обучены модели (и какого масштаба фабрика для этого использовалась)?
- Или же обучение происходит непосредственно в процессе эксплуатации AI фабрики? На базе каких параметров? С помощью какого алгоритма?
Если кратко используется алгорити iLossless — это своя сборка из открытых моделей. Очень много описано техническим языком в [White Paper] Data Center AI Fabric Technology White Paper
Помимо этого здесь habr.com/ru/company/huawei/blog/461413 описали сценарии тестирования до пуска в среду Заказчика. Далее модель продолжает обучаться в продуктивной сети с целью подгонки алгоритмов под конкретный сценарий.
И еще хотел бы уточнить несколько вопросов по flow control в фабрике.
Сам по себе RoCE никак не гарантирует Lossless коммуникацию. Для этого есть другие протоколы и методики, как например buffer credits в InfiniBand, или же PFC и/или ECN в Ethernet.
- Используется ли PFC в AI фабрике? Если да, то как решается проблема incast congestion spreading и victim flow с PFC?
- Используется ли ECN? В связке с PFC или без него?
- Используется ли flow control на NIC? В Mellanox или HiSilicon?
- Какая протестированная масштабируемость AI Fabric? Кол-во конечных узлов? В какой топологии?
- Можете поделиться какими-либо реальными бенчмарками на трейнинге со стандартными моделями (ResNet/VGG/etc.)?
По вопросам, в порядке очередности:
-Да — используется алгоритмы расчета E2E PFC и ECN, как часть технологий фабрики
-Большая часть логики используется на сетевой карте. Вот основные требования к NIC
«The server NIC must support RoCEv2 and be configured with the following functions:
-Configure QoS priority mapping based on the planned priority of RoCEv2 packets on the
entire network, and set the DSCP priority corresponding to RoCEv2 packets.
-Enable PFC based on the priority of RoCEv2 packets.
-Configure Enhanced Transmission Selection (ETS) if separate bandwidth allocation
control is required for RoCEv2 and non-RoCEv2 packets.
-Configure DCQCN for RoCEv2.
-Configure the MTU for RoCEv2 packets.»
-По топологии CLOS- Leaf/Spine/SuperSpine внедрено решение в Японском регионе для одного мотоконцерна на 500+ нод. Полет нормальный. Есть несколько внедрений на сотни нод в Китайском регионе в Банках по той же топологии.
— По открытым бенчмаркам без нарушения NDA — доступны 2 репорта от Tolly
1)[Product Certificate] Tolly test report for Huawei AI Fabric intelligent lossless data center network solution(vs Mellanox)
2)[Product Certificate] Tolly test report for Huawei AI Fabric intelligent lossless data center network solution(vs Cisco)
Для скачивания доступны по той же ссылке, что и Whitepaper — e.huawei.com/ru/material/MaterialSearch?keyword=ai%20fabric
RDMA внутри ЦОД в реализации от Huawei