Новый процессор из Китая в 4 раза быстрее предшественника: SW26010 Pro с 13,8 Тфлопс / Habr

Ранее в этом году в Национальном суперкомпьютерном центре в Чанше (Китай, провинция Хунань) запустили новый суперкомпьютер, который собран на базе процессора Sunway SW26010 Pro с 384 ядрами. Стоит отметить, что этот чип разработан самими китайцами. О том, что это за процессор и насколько он производительный — читайте под катом.

Что там с производительностью?

Это не первая китайская разработка. Но процессор SW26010-Pro, первая информация о котором появилась в 2021 году, это значительно более производительный чип, чем предыдущая версия — SW26010. Архитектура, к слову, осталась прежней. Т.е., SW26010-Pro использует 64-битную платформу RISC.

Недавно на SC23 компания продемонстрировала готовые процессоры и раскрыла более подробную информацию об их архитектуре и дизайне. Ожидается, что новый процессор позволит Китаю создавать мощные суперкомпьютеры, которые полностью базируются на процессорах собственной разработки. Максимальная производительность Sunway SW26010 Pro составляет FP64 13,8 терафлопс. Для сравнения, 96-ядерный процессор AMD EPYC 9654 имеет пиковую производительность FP64 около 5,4 терафлопс.

Чип объединяет шесть групп ядер, Core Group, CG, а также блок обработки протоколов (Protocol Processing Unit, PPU). В каждом CG-узле по 64 вычислительных элемента с 512-бит векторным механизмом. Кроме того, еще и 256 Кбайт быстрого кеша данных и 16 Кбайт кеша для инструкций. Соответственно, у Pro-версии 384 ядра, тогда как у предыдущего поколения чипа их было 256.

Также чип включает один элемент обработки управления (Management Processing Element, MPE) в расчёте на узел CG: это суперскалярное ядро с внеочередным исполнением и векторным движком, 32 Кбайт кэша инструкций и 32 Кбайт кэша данных L1, 256 Кбайт кэша L2 и 128-бит интерфейсом памяти DDR4-3200.

MPE и CPE используют протокол на основе директорий, который обеспечивает согласованный обмен данными. Технология дает возможность сократить объем информацией, которой обмениваются ядра, а также обеспечивает точное взаимодействие. Это важно для приложений с нерегулярным доступом к совместно используемым данным.

Что касается частот, то это 2,25 ГГц для CPE и 2,10 ГГц для MPE против 1,45 ГГц (в обоих случаях) у предшественника. Производительность FP64, как уже было сказано выше, достигает максимального значения 13,8 Тфлопс FP64 и 27,6 Тфлопс FP32. У предыдущей модели быстродействие FP64 равно 2,9 Тфлопс, а у процессора AMD EPYC 9654 Genoa — 5,4 Тфлопс.

Также стоит упомянуть, что каждый узел CG поддерживает в два раза больше объема ОЗУ, чем предшественник. 16 ГБ DDR4 вместо 8 ГБ DDR3 у процессора SW26010. Максимальный объем ОЗУ составляет 96 ГБ. При этом у SW26010 Pro все еще есть ограничения в отношении производительности кэша и подсистемы ОЗУ. Соответственно, 256 Кбайт кеша в расчёте на CPE при отсутствии надлежащего кеша L2 недостаточно, а двухканальной подсистемы памяти DDR4-3200 (51,2 Гбайт/с) едва хватает на 64 ядра, каждое из которых имеет 512-бит векторный FPU и обеспечивает производительность до 16 Флопс/цикл (FP64).

Это означает, что у нового процессора есть два главных недостатка: слабая подсистема кэширования (которую можно нивелировать с помощью программной оптимизации, но она затратны с точки зрения времени и денег) и не очень хорошая пропускная способность памяти. В результате еще неизвестно, можно ли его использовать для создания систем по решению комплексных реальных задач, в том числе, на суперкомпьютерах с производительностью на уровне несколько экзафлопс.

Но в любом случае, SW26010 Pro — весьма заметный прогресс по сравнению с SW26010, особенно с точки зрения объема памяти, плотности вычислений и общей производительности. Эти усовершенствования могут говорить о постоянном развитии отрасли суперкомпьютеров в Китае

А еще — аналоговый процессор, который в 3000 раз быстрее GPU A100 от Nvidia

Об этом чипе мы уже писали. Дело в том, что команда ученых из университета Цинхуа создала аналоговый фотоэлектронный чип. По мнению самих разработчиков, этот чип способен вывести отрасль машинного зрения на новый уровень. Чип получил название ACCEL (All-analog Chip Combining Electronic and Light Computing).

В новой разработке используются технологии и достижения из отрасли фотонных вычислений, где свет применяется для обработки данных. В частности, в чип применяются как дифракционные оптические аналоговые вычисления (OAC) и электронные аналоговые вычисления (EAC), что позволяет значительно увеличить энергоэффективность и производительность.

Системная энергоэффективность выражается в способности производить до 74,8 квадриллиона операций в секунду при затрате 1 Вт мощности. Скорость вычислений — 4,6 пета-операций в секунду (более 99% выполняются), а это более чем в три раза выше, чем у современных высокопроизводительных графических процессоров. Благодаря комбинации оптоэлектронных вычислений и адаптивного обучения ACCEL очень хорошо различает объекты на изображениях.

Разработчики чипа сравнили работу ACCEL и разных нейросетей, реализованных на современном графическом процессоре NVIDIA A100 для той же задачи. Результаты тоже заслуживают внимания. Так, при последовательной обработке изображений ACCEL достиг задержки 72 нс/кадр и энергопотребления 4,38 нДж/кадр. Это гораздо меньше, чем у чипа от NVIDIA, который упоминался выше. Так, у NVIDIA A100 задержка и потребление энергии составляют около 0,26 мс/кадр и 18,5 мДж/кадр соответственно.

Если взять результаты по скорости вычислений и энергопотреблению, то в ходе лабораторных испытаний ACCEL достиг производительности в 4.6 петафлопс (PFLOPS), что в 3000 раз быстрее, чем у широко используемого коммерческого AI-чипа Nvidia A100, при этом потребляя в 4 миллиона раз меньше энергии. После тестирования технологии ученые выяснили точность. Она составила 85,5% для задач Fashion-MNIST, 82% для 3-классовой классификации ImageNet и 92,6% для задач распознавания покадрового видео.

В целом, китайская отрасль производства и разработки электроники явно развивается. Проблем, конечно, огромное количество — это и нецелевое расходование средств, и нехватка специалистов, и санкции со стороны США. Сейчас китайские ученые и инженеры явно делают весьма заметные успехи. Ну а что будет дальше — покажет время.

Новый процессор из Китая в 4 раза быстрее предшественника: SW26010 Pro с 13,8 Тфлопс

Что там с производительностью?

А еще — аналоговый процессор, который в 3000 раз быстрее GPU A100 от Nvidia

Другие полезные материалы

{{ titleHtml }}

{{ titleHtml }}