Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba / Хабр

20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.

Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.

Технические характеристики Zhenwu M890

Zhenwu M890 — это специализированный высокопроизводительный ускоритель, разработанный для решения сложных задач в сфере искусственного интеллекта. Вычислительная платформа чипа оснащена 144 ГБ встроенной высокоскоростной памяти типа HBM. Высокую скорость обмена данными обеспечивают межчиповые соединения, состоящие из восьми независимых портов ICN с суммарной пропускной способностью 800 ГБ/с.

Высокопроизводительный китайский ИИ-ускоритель Alibaba Zhenwu M890. Источник. — *Высокопроизводительный китайский ИИ-ускоритель Alibaba Zhenwu M890.* *Источник*.

Архитектура поддерживает как прямое соединение чип-чип (P2P), так и подключение через коммутатор ICN Switch 1.0, что позволяет объединять до 64 плат в единую полносвязную топологию. При этом ускоритель оптимизирован под разные типы вычислительных нагрузок: процессы обучения моделей выполняются в форматах FP32, BF16 и FP16, а для инференса предусмотрена поддержка FP8, INT8 и FP4.

Программное обеспечение ускорителя основано на стеке T-Head SAIL, который является собственной разработкой компании с независимыми правами интеллектуальной собственности. Этот стек обеспечивает полную совместимость с основными современными AI-фреймворками, позволяя запускать существующие приложения без необходимости изменения их исходного кода. Кроме того, в систему интегрированы встроенные инструменты для глубокого мониторинга, детального анализа производительности и отладки программного обеспечения.

Среди заявленных сценариев применения GPU — как классические обучение и инференс больших моделей, так и обучение моделей автономного вождения и многомодальное обучение. Чип изначально проектировался под нагрузки AI-агентов: длинный контекст, одновременные вызовы от сотен или даже тысяч агентов, высокие требования к минимальным задержкам коммуникации между моделями.

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

Что внутри суперсервера Panjiu AL128

Архитектура межчипового соединения процессоров Alibaba Zhenwu 810E. Источник. — *Архитектура межчипового соединения процессоров Alibaba Zhenwu 810E.* *Источник*.

В одной стойке объединены 128 ускорителей M890 — единая вычислительная система с общим интерконнектом. Все платы связывает собственный коммутатор ICN Switch 1.0 с пропускной способностью 25,6 Тбит/с. Через него можно объединить до 64 плат в полносвязную топологию — в таком режиме каждая карта видит каждую без узких мест и на полной скорости.

Расчетная суммарная пропускная способность стойки достигает порядка петабита в секунду. При этом задержка передачи данных между двумя GPU составляет менее 150 наносекунд. Для сравнения: за это микроскопическое время свет успевает пройти всего около 45 метров.

Система полностью готова к работе сразу «из коробки». В ней минимизирована необходимость дополнительной настройки — достаточно просто подключить и запустить оборудование. При этом программная среда сервера изначально поддерживает три крупнейшие китайские модели: Qwen от Alibaba, DeepSeek и Kimi.

Эволюция и развитие

Вычислительный модуль на базе процессора Alibaba Zhenwu 810E. Источник. — *Вычислительный модуль на базе процессора Alibaba Zhenwu 810E.* *Источник*.

Предшественником новинки был Zhenwu 810E:

	Zhenwu 810E	Zhenwu M890	Прирост
Память HBM	96 ГБ	144 ГБ	+50%
Пропускная способность памяти	2,7 ТБ/с	не раскрыта	–
Межчиповая шина	700 ГБ/с	800 ГБ/с	+14%
Портов ICN на чип	7	8	+1 порт

У Zhenwu M890 появилась поддержка FP4, а вот для 810E минимальная точность для инференса в документах явно не указана. Конечно, Alibaba декларирует трехкратный рост производительности у нового поколения, но методологию сравнения и конкретные бенчмарки не раскрывает.

При этом неизменными остались сценарии применения: обучение, инференс, автопилоты, мультимодальность. Однако пропускная способность памяти M890 в документах не указана, а этот показатель часто является узким местом во время инференса больших моделей. Без цифр оценить реальный прогресс сложно.

Как насчет NVIDIA

Серверная ИИ-платформа NVIDIA HGX H200. Источник. — *Серверная ИИ-платформа NVIDIA HGX H200.* *Источник*.

При сравнении с NVIDIA H200 китайский Zhenwu M890 демонстрирует паритет по памяти: 141 ГБ у H200 против 144 ГБ у M890, поэтому разница здесь несущественная. Однако по пропускной способности памяти H200, вероятнее всего, выигрывает. Этот показатель у него составляет 4,8 ТБ/с против неизвестного показателя M890, притом что у предшественника китайского чипа было 2,7 ТБ/с. По вычислительной мощности H200 SXM выдает 3 958 TFLOPS по FP8, а его NVL-версия — 3 341 TFLOPS, тогда как по M890 точных цифр не публикуют, увы.

В то же время межчиповое соединение реализовано на достойном для M890 уровне: порты ICN обеспечивают 800 ГБ/с с масштабированием до 64 плат в полносвязной сети. Для сравнения: H200 NVL через мост NVLink тоже даёт 900 ГБ/с, но только до 8 GPU. Версия H200 SXM в составе HGX масштабируется лучше, но требует специализированных платформ.

Отдельным плюсом китайского чипа выступает точность инференса: M890 поддерживает формат FP4, тогда как H200 останавливается на FP8. Для инференса это теоретически означает вдвое более высокую плотность вычислений.

Как итог, уже не самая актуальная на сегодняшний H200 — предположительно мощнее по вычислениям и памяти, в то время как M890 на схожем уровне по масштабированию кластеров. Но главное — это доступностью на китайском рынке, где H200 и более продвинутые системы купить гораздо сложнее из-за экспортных ограничений.
H200 все еще держит планку за счет зрелой экосистемы CUDA, инструментария и многолетней оптимизации. Мы в Selectel предоставляем серверы на базе H200 в аренду — вы можете запустите пилот вашего AI-проекта на любой срок на своей площадке или в нашем ЦОД.

Серверная графическая плата NVIDIA HGX B200. Источник. — *Серверная графическая плата NVIDIA HGX B200.* *Источник*.

Заключение

В целом, Zhenwu M890 — это не попытка переиграть NVIDIA на ее же поле. Это возможность дать альтернативу. Alibaba не притворяется, что сделала лучший чип в мире, — она делает доступный чип для китайского рынка на уровне предыдущих поколений лидера индустрии.

Точно еще остается открытым вопрос, выйдет ли следующий GPU V900 по графику в Q3 2027. Также интересно, насколько T-Head (SMIC) справится с производственными объемами и смогут ли реальные бенчмарки подтвердить заявленный троекратный прирост над предшественником 810E.

Пока что Alibaba играет в долгую — и если судить по 380 млрд юаней, вложенным в инфраструктуру, денег на эту игру хватит. Alibaba строит не просто один чип, а полностью вертикально интегрированный стек — от кремния до облачной платформы.

Возможно, вам будет интересно:
LLM-инференс на фотонах? Передовые технологии, вышедшие в апреле
Первый сервер с памятью 9,8 ПБ: анонс Dell PowerEdge R7725xd
Анонс AMD Instinct MI430X: честный FP64 для точных научных расчетов

Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba

Технические характеристики Zhenwu M890

Что внутри суперсервера Panjiu AL128

Эволюция и развитие

Как насчет NVIDIA

Заключение

Публикации

Информация