Ampere Altra — первый в мире 80-ядерный ARM-процессор



    Калифорнийская компания Ampere представила первый в отрасли 80-ядерный серверный ARM-процессор на 64-битной архитектуре Ampere Altra.

    Уже несколько лет специалисты прогнозируют, что платформа ARM составит конкуренцию x86 в дата-центрах, но этого никак не происходит. По итогам 2019 года там доминирует Intel с долей 95,5%, у AMD — 4,5%.

    Однако новый ARM-процессор в целочисленном бенчмарке SPECrate 2017 показывает более высокую производительность, чем самый быстрый 64-ядерный AMD EPYC или топовый 28-ядерный Xeon семейства Cascade Lake. Это уже серьёзная заявка (хотя результаты бенчмарка немного «подкручены», см. ниже).

    Главное преимущество ARM — энергоэффективность, с которой по определению не могут сравниться процессоры x86 из-за особенностей архитектуры. У 80-ядерного Ampere Altra показатель TDP составляет 45-210 Вт, тактовая частота — 3 ГГц.

    Ampere считает, что один поток на ядро вместо двух способствует более высокой безопасности, поскольку такой дизайн лучше защищает отдельные ядра от атак по сторонним каналам типа Meltdown и Spectre.





    Процессор предназначен для серверных приложений, таких как аналитика данных, искусственный интеллект, базы данных, хранилища, телекоммуникационные стеки, пограничные вычисления, веб-хостинг и облачные приложения. Специально для приложений машинного обучения на аппаратном уровне реализована поддержка форматов данных FP16 (числа половинной точности) и INT8 (однобайтное представление целого числа). Есть также аппаратное ускорение хэширования AES и SHA-256.



    Микросхемы производятся на заводе TSMC по техпроцессу 7 нм. Первые образцы CPU уже отправлены потенциальным клиентам, а массовое производство планируется начать в середине 2020 года.

    Исполнительный директор Ampere и бывший президент Intel Рене Джеймс (Renée James) основала компанию Ampere Computing в октябре 2017 года на фундаменте обанкротившейся корпорации Applied Micro Circuits (1979—2017), которая тоже занималась проектированием серверных ARM-процессоров. В частности, в 2011 году она представила 64-битную платформу X-Gene на базе ARMv8-A.

    Сейчас Джеймс совмещает должности исполнительного директора и председателя совета директоров Ampere Computing с должностью заместителя председателя Национального консультативного комитета по безопасности телекоммуникаций (National Security Telecommunications Advisory Committee), который консультирует президента Соединенных Штатов.

    Интересно, насколько успешной будет новая попытка вывести ARM-процессоры на серверный рынок.

    «Мы выпустили процессор с самым большим количеством ядер на рынке, — говорит Джеймс. — Теперь мы отправили его [для тестирования] некоторым из крупнейших поставщиков облачных услуг в отрасли… Думаю, люди будут удивлены. [На смену предыдущим технологиям] всегда приходит что-то новое. И если не от действующей компании, то от новой. Очень интересно работать над тем, что я считаю следующим этапом развития индустрии».

    О 64-битных серверных чипах ARM много говорили в прошлые годы, когда подобные процессоры пытались выпускать AMD и вышеупомянутая Applied Micro. Но эти компании потерпели неудачу. AMD закрыла свой ARM-проект, а активы Applied Micro были проданы компании Macom. В 2017 году Carlyle Group купила у неё подразделение ARM-процессоров. Сделку закрыли в конце 2019 года, а Джеймс заняла пост генерального директора в новой компании, оставив свою должность операционного директора в Carlyle Group.


    Две серверные платформы Ampere: Mt. Jade и Mt. Snow

    Однопоточные ядра Ampere Altra и «плотные энергоэффективные серверы», которые можно строить на таких CPU, позволят клиентам «максимизировать количество сервисов, которые они могут развернуть в облаке», говорится в сообщении компании.

    Процессор Ampere Altra основан на платформе ARM Neoverse N1. Положительные отзывы о новых серверах получены от инженеров Microsoft Azure, Oracle, Canonical, VMware, Kinvolk, Packet, Lenovo, Gigabyte, Wiwynn и Micron, все они цитируются в пресс-релизе.


    Сервер Mt. Jade на два процессора (160 ядер): аналитика данных, БД, веб

    Компания говорит, что программное обеспечение готово для работы с Ampere Altra: «Самое важное сейчас то, что если вы посмотрите на все уровни, уровень ОС, все — от Linux до BSD и Windows — все поддерживают ARM», — говорит Джефф Виттич (Jeff Wittich), старший вице-президент по продуктам Ampere. — По виртуализации у нас есть поддержка Kubernetes, Docker, VMware и KBM. Там всё поддерживается. На уровне приложений всё, что сегодня работает в облаке, уже работает и у нас».


    Сервер Mt. Snow на один процессор: граничные вычисления, телекоммуникационные сервисы, веб, хранение данных

    Спецификации




    • Подсистема процессора
      • 80 ядер ARM v8.2+ 64 бита с тактовой частотой до 3,0 ГГц с Sustained Turbo, добавлены некоторые улучшения от ARM v8.3 и v8.4
      • I-кэш L1 64 KБ, D-кэш L1 64 КБ на каждое ядро, кэш L2 1 МБ на каждое ядро, общий кэш системного уровня 32 МБ (SLC)
      • Поток коротких инструкций SIMD (Single Instruction, Multiple Data) двойной ширины (128 бит)
      • Когерентные межсоединения в mesh-сети
    • Системная память
      • 8x 72-битных каналов DDR4-3200
      • ECC, Symbol-based ECC, DDR4 RAS
      • До 16 модулей DIMM и 4 ТБ на сокет
    • Системные ресурсы
      • Полная виртуализация прерываний (GICv3)
      • Полная виртуализация I/O (SMMUv3)
      • Надёжность RAS (Reliability, Availability, Serviceability) корпоративного серверного класса
    • Сеть
      • 128 линий PCIe Gen4
        • 8 x8 PCIe + 4 x16 PCIe/CCIX с поддержкой Extended Speed Mode (ESM) для передачи данных на 20/25 ГТ/с (гигатранзакций в секунду)
        • 48 контроллеров для поддержки до 32 x2 соединений
      • 192 линий в конфигурации 2P
      • Поддержка нескольких сокетов
      • 4 линии x16 CCIX
    • Температурный диапазон – от 0°C до +90°C
    • Питание
      • CPU: 0,80 В, DDR4: 1,2 В
      • I/O: 3,3 В/1,8 В, SerDes PLL: 1,8 В
    • Управление питанием – Динамическая оценка, Turbo Gen2, защита от падения напряжения
    • Корпус – 4926-пиновый FCLGA
    • Производство – Технология FinFET 7 нм

    Бенчмарки


    Джефф Виттич говорит, что в тестах процессор Ampere показывает результат на 4% лучше, чем самый быстрый процессор EPYC от AMD, и потребляет на 14% меньше энергии. Речь идёт о 64-ядерном процессоре EPYC
    7742 с TDP 225 Вт и стоимостью $6950. Это самый мощный в семействе процессоров EPYC 2 на микроархитектуре Zen 2. Семейство представлено в августе 2019 года.





    Виттич также привёл сравнение с 28-ядерным процессором Xeon семейства Cascade Lake. Процессор Ampere Altra превзошёл его «в 2,23 раза по производительности и в 2,11 раза по энергоэффективности». Здесь показатели сравнивались с 28-ядерным Xeon Platinum 8280 (205 Вт), а энергоэффективность вычислялась из расчёта на одно ядро.

    Как сообщается, в целочисленном бенчмарке SPECrate 2017 процессор Ampere Altra показывает результат больше 259. В таблице результатов это уступает пиковой производительности ASUS RS720A-E9(KNPP-D32) Server System (2.20 GHz, AMD EPYC 7601) и ASUS RS500A-E10(KRPA-U16) Server System 2.25 GHz, AMD EPYC 7742.

    Однако в сравнении производительности Ampere применила к результатам AMD коэффициент 0,85 из-за использования пакета компиляторов AMD64 для компиляции кода бенчмарка по сравнению с GCC 8.2, который использовала сама, поскольку компилятор AMD C/C++ производит более оптимизированный код, чем GCC для ARM.

    Несмотря на такие «подкрутки» бенчмарка, Ampere Altra выглядит очень впечатляюще по производительности и энергоэффективности. В стандартную серверную стойку 42U с подачей питания 12,5 кВт можно «упаковать» около 3500 процессорных ядер, получив экономию из расчёта ватт на ядро.





    И это только начало. Джефф Виттич сказал, что через год на рынке появится ещё один продукт под кодовым названием Mystique, в котором Ampere ещё больше увеличит количество ядер.

    Mystique будет поддерживать тот же разъём, так что замена материнских плат не потребуется. На 2022 год запланирован выпуск следующего поколения Siryn SoC.



    В последние годы мы наблюдали несколько попыток выпустить серверные ARM-процессоры от разных компаний: Broadcom/Cavium/Marvell, Calxeda, Huawei, Fujitsu, Phytium, Annapurna/Amazon и AppliedMicro/Ampere. Большинство этих попыток были неудачными. Но есть признаки, что ситуация меняется. В декабре 2019 года Amazon выкатила в продакшн серверы с 64-ядерными ARM-процессорами Graviton2 — это система-на-кристалле на таком же ядре ядре ARM Neoverse N1. В некоторых тестах инстансы на ARM (M6g и M6gd) проявили себя лучше, а иногда намного лучше, чем x86.

    В ноябре 2019 года сообщалось, что американский стартап Nuvia привлёк $53 млн венчурного финансирования. Стартап основали три ведущих инженера, которые занимались созданием процессоров в Apple и Google. Они тоже обещают разработать серверные процессоры, которые составят конкуренцию Intel и AMD. По имеющейся информации, Nuvia спроектировала с нуля процессорное ядро, которое может быть построено «поверх» архитектуры ARM, но без получения лицензии ARM.

    Всё это указывает на то, что процессоры RISC могут найти применение не только в мобильных устройствах, но и в серверах, а также в настольных компьютерах и ноутбуках. Кстати, ходят слухи, что и будущие ноутбуки Apple MacBook тоже выйдут на ARM-процессорах.



    По сути, последние модели iPad Pro с ARM-процессорами A12X почти не уступают по производительности 15-дюймовым MacBook Pro с процессорами Core i7 и Core i9, так что такой апгрейд станет вполне логичным.



    Дата-центр «Миран»
    Решения для аренды и размещения ИТ-инфраструктуры

    Комментарии 40

      0
      Самое важное сейчас то, что если вы посмотрите на все уровни, уровень ОС, все — от Linux до BSD и Windows — все поддерживают ARM, — говорит Джефф Виттич (Jeff Wittich), старший вице-президент по продуктам Ampere. — По виртуализации у нас есть поддержка Kubernetes, Docker, VMware и KBM
      Чую недоговоренности здесь я.
      Особенно после ограничения действия лицензии VMware на 32 ядра. 80 ядер = 3 лицензии, сэкономили на железе — заплатите за софт?
      PS Интересно, они с Nvidia за торговую марку не судятся?
        0
        Пока на общих задачах ARMv8 сильно проигрывает x64.
        Лучше взять 2 ядра на x64, чем 4 ARM (тем более у хостеров они близки по стоимости).
          0
          В смысле компиляторы не оптимальный код для ARM дают? Так это действительно пока. Будет спрос — компиляторы докрутят.
            +1
            А причем тут компиляторы? Я думаю они вполне все там оптимально делают.
              0
              До оптимума в компиляторах для новых архитектур и процессоров и работать и работать.

              Даже AMD периодически попрекает тестеров использованием компиляторов оптимизированных под Intel. Как только докручивают компиляцию, производительность вдруг вырастает.
              С чего бы это? :)

              Для Эльбрусов это вообще горящая тема. Только на доработке компиляторов они растут в производительности на 10-20% в год без всяких аппаратных обновлений. Из имеющихся 50 операций на такт, нанешним компиляторам удаётся выжать максимум 6. Запас по пиковой недоиспользуемой производительности почти 800%.

              У серверных ARM конечно всё лучше с ресурсами на софт обстоит, но до компиляторов Intel им ещё далеко. Сегодня поэтому «на общих задачах ARMv8 сильно проигрывает x64.»
                0
                До оптимума в компиляторах для новых архитектур и процессоров и работать и работать.
                arm ведь не шибко новая архитектура? По крайней мере сейчас все мобилки на них
            0
            У ARMов по производительности тоже не все однозначно: Redmi Note 5 pro с Qualcomm Snapdragon 636 — 8 ядер на частоте 1.8 GHz и Xiaomi Redmi 6 с Mediatek Helio P22 — 8 ядер на частоте 2 GHz показывают в octane 2 соответственно 7253 и 4115, PC I7 4 ядра 3,4 GHz — Octane Score: 21837.
              +1

              И армовые, и x86 ядра бывают очень разные. Можете сравнить ядра Kentsfield и Zen 2 на равных частотах, и посмотреть, что получится.

                +2
                PC I7 4 ядра 3,4 GHz — Octane Score: 21837.
                Это старьё какое-то. Но в любом случае вы сравниваете i7 с low-end/mid телефонными чипами.
                В SD636 «большие» ядра это ни что иное как Cortex-A73, который декодирует лишь 2 инструкции за такт.

                Apple A13 2,66GHz — 49137 баллов
                Ryzen 3950X ~4,3GHz — 52487 балла

                (но нужно учитывать то, что ОС и браузер разные)
                +1
                ARMv8 это архитектура.
                Какие конкретные процессоры вы имеете в виду?
                2 ядра Neoverse N1, которые использованы в данном процессоре, лучше чем 1 ядро Skylake (и его клоны)
                  0
                  ARMv8 это архитектура.

                  Спасибо, кэп.
                  Как бы и x64 даже не архитектура.
                  Так что сравниваем сферических коней в вакууме…
                  а по поводу
                  2 ядра Neoverse N1

                  пробовал на AWS — все равно 2 ядра m6g.large показались медленнее чем m5.large))
                  Но это чисто ИМХО, так как тесты не проводил.

                  Ссылку на найденные гуглопоиском тесты дал в комментарии ниже.
                    0
                    Так что сравниваем сферических коней в вакууме…

                    Вы сравниваете, не я.
                    Архитектура не имеет производительности. Это формальное описание системы команд и протоколов.

                    Ссылку на найденные гуглопоиском тесты

                    Разберитесь, что за результаты вы приводите.
                    По ссылке Amazon-овские х86 инстансы сравниваются с ARM инстансами Scaleway.
                    Powered by up to 64 Cavium ThunderX 64-bit vCPUs and DDR4 ECC RAM.
                    Первый ThunderX это довольно тормозной процессор, примерно как Cortex-A53 (по производительности на ядро), который используется в самых дешевых телефонах.
                    К m6g, Graviton2 и ядрам A76(N1), которые используются в Altra, данные результаты не имеют никакого отношения.

                    Вот вам сравнение m6g и m5:
                    docs.keydb.dev/blog/2020/03/02/blog-post

                  0

                  Как может x64, исполняющийся на RISK через микрокод, выигрывать у RISK без лишней прослойки?

                    0
                    Не RISK, а RISC.
                    х64 процессоры не выполняют RISC код. Это упрощение, которое не соответствует действительности.
                      0
                      В вашей логике непонятно, что же соответствует действительности. Уже сама действительность под сомнением )
                        0
                        WAT?
                        Действительность соответствует действительности. CISC-овые микрооперации (loadop и rmw) нынче не разбиваются на RISC-подобные. Опять же, микрокод нужен лишь для сложных операций/редких случаев. Обычные операции обходятся без него.

                        Уже сама действительность под сомнением

                        Что-то забористое.
                      0
                      Берете у одного хостера 2 одинаковых инстанса и гоняете на них, ну например MySQL workbench. или вот тестили ссылка
                        0
                        Верю. Но то, что RISC эффективнее CISC, давно доказали мобильные телефоны, которые потребляют в разы меньше, но при этом делают выполняют довольно сложные задачи, и даже пытаются соревноваться с десктопными процессорами.

                        Вот и интересно — в чем же дело?
                          0
                          RISC эффективнее CISC, давно доказали мобильные телефоны
                          извините, но это из серии что, мягкое доказало, что оно более полезнее чем теплое.
                          А практика на серверном рынке показала, что сейчас CISC имеет лучшие потребительские свойства чем RISC. (долю PowerPC и SPARC надеюсь знаете?)
                            +1
                            Сравнивать абстрактные RISC и CISC бессмысленно.
                            Сравнивать нужно конкретные модели и их производительность, TCO, доступность софта.
                            x86 был дешевле и широко доступен для разработчиков в своё время, это позволило вытеснить большие RISC-и, несмотря на более низкую производительность. Сейчас производители ARM систем старается повторить этот трюк. Всё больше софта и ОС поддерживаются на ARM. Linux/Windows установить — не вопрос. В плане производительности стоковых ядер ARM, выходящий в этом году Cortex-A78 обещает быть вполне на уровне современных чипов Интел/AMD.

                            Power остался только в суперкомпьютерах и мейнфреймах. Sparc уже мёртв.
                            Сейчас ARM будет рулить и в Top500.
                              –1
                              Эм, тогда почему arm активно завоевывает серверный рынок?
                              Есть ноды в амазоне. Японцы строят свой будущий суперкомпьютер на них. Количество производителей начинает активно расти?

                              Я понимаю, что за десять лет обещаний от АРМ прорваться на рынок — новости кажутся постными. Но за последние пару лет виден явный прогресс и доступность простым смертным.

                              Я уже молчу, что ddr5 сейчас можно купить только в телефоне. По слухам на 95% в этом году x86 не получит новую память, только в 2021. Аналогично с hbm
                      0
                      Как-то было сообщение, что на iphone (то есть ARM) SMT-солвер Z3 работает заметно быстрее, чем на интеловском десктопе. Правда внятных объяснений почемк так получается не было. А на этих ARM такие программы на сколько быстро работают? Это, конечно, не модный машинленинг, но все равно задача полезная.
                        +3
                        Гораздо интереснее процессор фуджицу

                        www.nextplatform.com/2018/08/24/fujitsus-a64fx-arm-chip-waves-the-hpc-banner-high

                        И его уже отгружают
                          0
                          Вот именно такую мысль статья порождает :)
                          Где сравнения с однокровником?
                            0
                            Где сопоставление с похожими Fujitsu A64FX и Эльбрус-8СВ?
                            У них похожие стартовые позиции – неразвитость компиляторов и опыта в эксплуатации.
                            0
                            Еще 7лет назад были процессоры с кучей ядер и ни какой революции не произошло.
                              0
                              ну да, амазон не предлагает нод на арме
                                0

                                Предлагает. A1 инстансы и они стоят в два раза дешевле.

                                  0

                                  Только А1 и медленнее раза в три. Так что, брать их можно только для тренировок.
                                  А вот M6g нужно пробовать. Возможно они и правда хороши.

                                    0
                                    Простите, забыл добавить тег сарказма.

                                    Очевидно что за последние 5 лет АРМ успешно попали в серверный рынок. То что нет каких-то крыше сносящих продуктов, которые работают только на арм серверах — еще не показатель.
                                0
                                45?210 Вт — что это за TDP? Опечатка?
                                  +2
                                  45-210 т.к. будет не одна модель, а несколько, c разным количеством ядер.
                                    0
                                    А может это указан именно минимум-максимум для 80-ядерного в режиме простоя/нагрузки?
                                      0
                                      TDP это не энергопотребление, а требование к системе охлаждения, которая должна быть способна отвести указанное количество тепла. Минимальная граница попросту не имеет смысла.

                                      На Anandtech явно написано:
                                      The CPU range will vary from 45W to 210W, and vary in core count — we suspect these SKUs will be derived from the single silicon design, and it will depend on demand as well as binning as to what comes out of the fabs. Exact SKUs are going to be announced later this year.

                                      Это большой кристалл, поэтому будет много чипов с битыми ядрами. Логично их выпускать с меньшим количеством ядер подешевле.
                                      0
                                      Просто автор уже исправил 45?210 Вт на 45-210 Вт )))
                                    –2
                                    Забавно. AMD сделали проц мощнее Intel
                                    специалисты прогнозируют, что платформа ARM составит конкуренцию x86 в дата-центрах, но этого никак не происходит.
                                    А вот проц, который мощнее AMD примерно на те же проценты, и
                                    Всё это указывает на то, что процессоры RISC могут найти применение не только в мобильных устройствах, но и в серверах
                                      0
                                      но этого никак не происходит.
                                      Ага, никак. С нуля до 4,5 процентов на старых поколениях, куча новых суперов на АМД уже собирается и анонсируются даже на Zen4.
                                      А вот проц, который мощнее AMD примерно на те же проценты
                                      Хм, АМД сделала процы, которые мощнее Интела в разы (за счёт ядер). Тут 4% если умножить производительность АМД на 0,85 в целочисленном тесте. Вы точно ресурс хабр с хоботом не спутали? Обычно там подобные комменты оставляются в массе.
                                        –1
                                        Ага, никак. С нуля до 4,5 процентов на старых поколениях, куча новых суперов на АМД уже собирается и анонсируются даже на Zen4.
                                        А вы вообще кому отвечаете? «но этого никак не происходит.» это цитата из статьи.
                                        АМД сделала процы, которые мощнее Интела в разы
                                        Открыл тесты Где разы? Опережение в 2 раза есть только по памяти, в остальных проигрывает одному из интелов. Или вот. Где тут разы?

                                        картинка из статьи
                                        image
                                        Написано: Altra быстрее AMD на 13% на стойку.
                                        Так же как и процы амд над интел в приведенных тестах.

                                        Интересно, с чем вы спутали хабр.
                                          0
                                          Открыл тесты Где разы? Опережение в 2 раза есть только по памяти, в остальных проигрывает одному из интелов. Или вот. Где тут разы?
                                          Вы б ещё тесты позапрошлого века поискали, а то чего только 17-го года? Надо найти сравнение вообще бульдозеров каких — вот там же вы победите!
                                          Вообще-то раз разговор про серверы, то сравнивать надо новое поколение с кучей ядер (пусть по ссылке и не серверные, но там разницы считай нет), которое уже полгода как было представлено и к январю на котором серверы стали предлагаться активно. Сами найдёте количество ядер и производительность оных? Может графики посмотрите в статье?
                                          Ах да, вы ж умеете сравнивать только топ Интела против не топа АМД можете и в игорьках? Что ж вы против i9-9900K (который в игорьках не лучше i7-9700K, особенно если вспомнить, что потоки интела сильно уязвимы настолько, что производитель сам рекомендовал их отключать?) привели 3700X, а не 3950X? Прям по методичкам хобота, откуда, такое ощущение, и набрались аргументов.
                                          Написано: Altra быстрее AMD на 13% на стойку.
                                          Неа, там написано:
                                          Однако в сравнении производительности Ampere применила к результатам AMD коэффициент 0,85
                                            0
                                            Открыл тесты Где разы? Опережение в 2 раза есть только по памяти, в остальных проигрывает одному из интелов. Или вот. Где тут разы?
                                            первая ссылка от 2017 года, а во второй… жесть. Во-первых, сравнение 3700x против 9900k где первый на треть дешевле, во-вторых присмотритесь к шкалам/цифрам (АМД побеждает в половине тестов), а в третьих сравнивать разные процы на одних частотах в принципе некорректно. Тем более что автор бенчил на двух плашках и одинаково настроил для разных процов.

                                            «В разы» было про результаты из этой статьи, про Threadripper 3990X.

                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                      Самое читаемое