20 мая на ежегодном Alibaba Cloud Summit T-Head полупроводниковое подразделение Alibaba представила новое поколение GPU — Zhenwu M890. Это ускоритель с 144 ГБ памяти HBM на борту и возможностью интерконнекта между устройствами до 800 ГБ/с. На основе этого устройства также была представлен суперсервер Panjiu AL128 — стойка из 128 ускорителей M890, объединенных собственным коммутатором ICN Switch 1.0.
Предложение уже доступно китайским корпоративным клиентам и поддерживает Qwen, DeepSeek и Kimi. Но что там с характеристиками? Разбираемся под катом.
Технические характеристики Zhenwu M890
Zhenwu M890 — это специализированный высокопроизводительный ускоритель, разработанный для решения сложных задач в сфере искусственного интеллекта. Вычислительная платформа чипа оснащена 144 ГБ встроенной высокоскоростной памяти типа HBM. Высокую скорость обмена данными обеспечивают межчиповые соединения, состоящие из восьми независимых портов ICN с суммарной пропускной способностью 800 ГБ/с.

Архитектура поддерживает как прямое соединение чип-чип (P2P), так и подключение через коммутатор ICN Switch 1.0, что позволяет объединять до 64 плат в единую полносвязную топологию. При этом ускоритель оптимизирован под разные типы вычислительных нагрузок: процессы обучения моделей выполняются в форматах FP32, BF16 и FP16, а для инференса предусмотрена поддержка FP8, INT8 и FP4.
Программное обеспечение ускорителя основано на стеке T-Head SAIL, который является собственной разработкой компании с независимыми правами интеллектуальной собственности. Этот стек обеспечивает полную совместимость с основными современными AI-фреймворками, позволяя запускать существующие приложения без необходимости изменения их исходного кода. Кроме того, в систему интегрированы встроенные инструменты для глубокого мониторинга, детального анализа производительности и отладки программного обеспечения.
Среди заявленных сценариев применения GPU — как классические обучение и инференс больших моделей, так и обучение моделей автономного вождения и многомодальное обучение. Чип изначально проектировался под нагрузки AI-агентов: длинный контекст, одновременные вызовы от сотен или даже тысяч агентов, высокие требования к минимальным задержкам коммуникации между моделями.
Что внутри суперсервера Panjiu AL128

В одной стойке объединены 128 ускорителей M890 — единая вычислительная система с общим интерконнектом. Все платы связывает собственный коммутатор ICN Switch 1.0 с пропускной способностью 25,6 Тбит/с. Через него можно объединить до 64 плат в полносвязную топологию — в таком режиме каждая карта видит каждую без узких мест и на полной скорости.
Расчетная суммарная пропускная способность стойки достигает порядка петабита в секунду. При этом задержка передачи данных между двумя GPU составляет менее 150 наносекунд. Для сравнения: за это микроскопическое время свет успевает пройти всего около 45 метров.
Система полностью готова к работе сразу «из коробки». В ней минимизирована необходимость дополнительной настройки — достаточно просто подключить и запустить оборудование. При этом программная среда сервера изначально поддерживает три крупнейшие китайские модели: Qwen от Alibaba, DeepSeek и Kimi.
Эволюция и развитие

Предшественником новинки был Zhenwu 810E:
Zhenwu 810E | Zhenwu M890 | Прирост | |
Память HBM | 96 ГБ | 144 ГБ | +50% |
Пропускная способность памяти | 2,7 ТБ/с | не раскрыта | – |
Межчиповая шина | 700 ГБ/с | 800 ГБ/с | +14% |
Портов ICN на чип | 7 | 8 | +1 порт |
У Zhenwu M890 появилась поддержка FP4, а вот для 810E минимальная точность для инференса в документах явно не указана. Конечно, Alibaba декларирует трехкратный рост производительности у нового поколения, но методологию сравнения и конкретные бенчмарки не раскрывает.
При этом неизменными остались сценарии применения: обучение, инференс, автопилоты, мультимодальность. Однако пропускная способность памяти M890 в документах не указана, а этот показатель часто является узким местом во время инференса больших моделей. Без цифр оценить реальный прогресс сложно.
Как насчет NVIDIA

При сравнении с NVIDIA H200 китайский Zhenwu M890 демонстрирует паритет по памяти: 141 ГБ у H200 против 144 ГБ у M890, поэтому разница здесь несущественная. Однако по пропускной способности памяти H200, вероятнее всего, выигрывает. Этот показатель у него составляет 4,8 ТБ/с против неизвестного показателя M890, притом что у предшественника китайского чипа было 2,7 ТБ/с. По вычислительной мощности H200 SXM выдает 3 958 TFLOPS по FP8, а его NVL-версия — 3 341 TFLOPS, тогда как по M890 точных цифр не публикуют, увы.
В то же время межчиповое соединение реализовано на достойном для M890 уровне: порты ICN обеспечивают 800 ГБ/с с масштабированием до 64 плат в полносвязной сети. Для сравнения: H200 NVL через мост NVLink тоже даёт 900 ГБ/с, но только до 8 GPU. Версия H200 SXM в составе HGX масштабируется лучше, но требует специализированных платформ.
Отдельным плюсом китайского чипа выступает точность инференса: M890 поддерживает формат FP4, тогда как H200 останавливается на FP8. Для инференса это теоретически означает вдвое более высокую плотность вычислений.
Как итог, уже не самая актуальная на сегодняшний H200 — предположительно мощнее по вычислениям и памяти, в то время как M890 на схожем уровне по масштабированию кластеров. Но главное — это доступностью на китайском рынке, где H200 и более продвинутые системы купить гораздо сложнее из-за экспортных ограничений.
H200 все еще держит планку за счет зрелой экосистемы CUDA, инструментария и многолетней оптимизации. Мы в Selectel предоставляем серверы на базе H200 в аренду — вы можете запустите пилот вашего AI-проекта на любой срок на своей площадке или в нашем ЦОД.

Заключение
В целом, Zhenwu M890 — это не попытка переиграть NVIDIA на ее же поле. Это возможность дать альтернативу. Alibaba не притворяется, что сделала лучший чип в мире, — она делает доступный чип для китайского рынка на уровне предыдущих поколений лидера индустрии.
Точно еще остается открытым вопрос, выйдет ли следующий GPU V900 по графику в Q3 2027. Также интересно, насколько T-Head (SMIC) справится с производственными объемами и смогут ли реальные бенчмарки подтвердить заявленный троекратный прирост над предшественником 810E.
Пока что Alibaba играет в долгую — и если судить по 380 млрд юаней, вложенным в инфраструктуру, денег на эту игру хватит. Alibaba строит не просто один чип, а полностью вертикально интегрированный стек — от кремния до облачной платформы.
Возможно, вам будет интересно:

