Amazon разработала новый процессор для центров обработки данных



    Подразделение Amazon, которое занимается разработкой в сфере облачных вычислений, заканчивает работу над новым серверным процессором. Об этом сообщает агентство Reuters со ссылкой на собственные источники внутри компании.

    Новый процессор будет основан на архитектуре ARM и, по информации Reuters, будет как минимум на 20% мощнее предыдущего процессора Graviton, который вышел в прошлом году как недорогой вариант для простых вычислительных задач.

    Как указывают информаторы, если усилия по созданию микросхем Amazon Web Services себя оправдают, это может снизить зависимость компании от продукции Intel и Advanced Micro Devices (AMD). На сегодня Intel контролирует более 90% рынка серверных процессоров, а AMD — большую часть остальных. При этом большая часть продукции Intel разрабатывается для облачных сервисов. По информации Reuters, в 2018 году почти 65% продаж процессоров Intel приходилось на поставщиков облачных и коммуникационных услуг.

    По словам одного из источников Reuters, усилия Amazon в разработке ARM-чипов показывают хорошие результаты. Эти процессоры дешевле и потребляют меньше электроэнергии, чем более мощные топовые решения Intel. Самые производительные чипы Intel могут стоить несколько тысяч долларов, а стоимость базовых серверных процессоров ARM не превышает тысячи.

    В первом чипе Graviton Amazon использовал ядра Cortex A72. Новый процессор скорее всего будет использовать более современную микроархитектуру Neoverse N1, а количество ядер увеличится с 16 до 32.

    Amazon Web Services, облачное подразделение корпорации, на сегодня является самым быстрорастущим в бизнесе компании. В 2019 году выручка AWS может составить $34,9 млрд. В 2018 году общая выручка Amazon достигла $232,8 млрд, из них $25,6 млрд пришлись на AWS.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 16

      +2

      Любопытно. Вроде бы официально его представят на выставке re:Invent через неделю, а пока, опять же, по слухам, это будет 7-нм SoC на базе Neoverse N1 с 32 ядрами (против 16 ядер на базе Cortex A72 у Graviton ранее). Это должно дать прирост процентов на 20, но главное — он будет примерно вдвое дешевле Intel-овских аналогов, хотя и медленнее. Ещё в нём будут всякие ускорилки для машинного обучения, которые тоже могут пригодиться, и некоторые задачи он решает в 6 раз быстрее Гравитона.
      (Отсюда: https://siliconangle.com/2019/11/28/report-aws-developing-new-graviton-chip-32-cores-20-speed/)

        +4
        Самые производительные чипы Intel могут стоить несколько тысяч долларов, а стоимость базовых серверных процессоров ARM не превышает тысячи.
        Вот этого не понял, сравниваем цену топовых Интела с самыми простыми ARM?
          –3

          Армы могут быть совсем не простые. Мне лет 20 назад один любитель электроники говорил за армами будущее. Это когда ещё Армы не стояли в каждом смарте. Тогда только первые палмы появились.

            0

            Хоть бы один пояснил в чем прелесть x86. Там нет SIMD инструкций? Или все эти улучшайзеры основаны на x86? Минусующие поясните, в чем не прав?

              0
              В статье сравнили тёплое с мягким… Ни у кого нет претензий к ARM, просто опять учёный изнасиловал журналиста.
                +1
                Вы написали «сравниваем… с самыми простыми ARM?» в ответ на высказывание
                про серверные ARM процессоры ценой в $1000? Кто кого тут изнасиловал это ещё вопрос.
                Самые простые ARM стоят доллар или меньше.
                  0
                  Думал было понятно, что я имею ввиду. Хорошо, тогда так:
                  Самые производительные чипы Intel могут стоить
                  а стоимость базовых серверных процессоров ARM
          +2
          Ниша армов энергоэффективность, а вот вычислительная мощь не их конек.
            0
            Так и есть. Плюс у Fujitsu есть что сказать на предмет производительности ARM.

            И есть свежайшее исследование в кремнии, чего вскорости ждать от RISC-V, на который делает суперкомпьютерную ставку Европейский союз.
              +1
              Первая ссылка же тоже пока только об энергоэффективности, а не вычислительной мощности.
              1е место по энергоэффективности (скорость на 1 Вт), но только 159е собственно по скорости вычислений.

              Хотя в случае суперкомпьютеров, ее можно будет разменять на скорость просто задавив большим количеством экономичных и относительно дешевых вычислителей.
                +2
                159 место у прототипа. Сам суперкомпьютер только на днях начали строить.
                Он будет вдвое быстрее самого быстрого на сегодня (400PF)

                У Интел, конечно, есть процессор с производительностью больше ARM-овских 2.7TFLOPS на double precision. Но ПСП в 1TB/s нет, а многие HPC алгоритмы её любят.

                ark.intel.com/content/www/ru/ru/ark/products/194146/intel-xeon-platinum-9282-processor-77m-cache-2-60-ghz.html
                Цена, по слухам, была всего лишь $18000

                Это склейка из двух топовых чипов, в то время как A64FX монолитный.
                  +1
                  Ну для прототипа тогда неплохо. Впрочем когда полная машина будет построена и заработает и множество других проектов на х86 и Power должно быть к тому времени завершено со скоростями вплоть до 1 экзофлопа и верхушка рейтинга сильно поменяется.

                  Хотя 2.7 TFLOPS на 48 ядерный чип это конечно все-равно круто, по 56 GFLOPS на 1 ядро — примерно на уровне самых современных х86.

                  Интересно за счет чего они этого достигли? Потому как все остальные ARM ядра в 3-5 раз медленнее этих показателей. А те что в смартах и подобных мобильных применениях и во все 10-15 раз медленнее в вычислениях на 1 ядро чем современные х86.

                  Похоже это достигнуто просто путем интеграции в обычный ARM сверхширокого блока векторных/SIMD инструкций (SVE) и подобная скорость наблюдается только на ПО специально переписанного под этот набор.

                  Но сравнения скорости на свершироких SIMD инструкциях это так себе сравнения. Для софта где он хорошо подходят к используемым алгоритмам сейчас рулят вовсе не x86 или Power архитектуры, а GPU-like ускорители (собственно серверные варианты GPU и Intel Phi). Причем рулят как по абсолютной скорости (например еще несколько лет назад вышедший в серийное производство Nvidia Tesla P100 дает ~ 5 TFLOPS на double precision вычислениях) так и по энергоэффективности. Поэтому почти все современные проекты суперкомпьютеров включают подобные ускорители и именно на них приходится основная доля пиковой производительности, а не на х86 ядра.
                  Не зря Фуджи там в своеv пресс-релизе сравнивают свой прототип исключительно с суперами БЕЗ ускорителей — очень удобно: главных конкурентов из рассмотрения просто изначально убрали.

                  Ну и этот Intel (да и Intel вообще) уже не топчик в x86. Когда нужно много числомолотилок теперь наверху уже AMD.
                  Например серия процессоров Epyc 77хх — 64/128 ядра/потока за примерно половину потребляемой энергии и чуть больше трети по стоимости по сравнению с Интел (рекомендованные цены $6500-7000 против $18000). В следующем (или через одно) поколение AMD еще в 2 раза больше ядер накинут и вероятно добавят AVX-512 (что значит удвоение или учетверение производительности на SIMD оптимизированном коде)
                  Интел просто слишком долго расслаблялся и много лет стриг купоны с одной и той же микроархитектуры не занимаясь серьезными разработками в х86. Хотя и денег и времени для этого был вагон.
                  Сейчас пришла пора за это расплачиваться — конкуренты их уже не просто догнали, а начали перегонять.

                  А насчет склеек. Какой же A64FX монолитный? Это тоже «склейка» из 4 отдельных вычислительных модулей и 4 стеков (каждый из которых тоже склейка-стопка из нескольких отдельных кристаллов) HBM памяти.
                  По 12(+1) ядра в выч. модуле и 1 канал HMB с 8 ГБ памяти. Блок-схема чипа:
                  Схема
                  image


                  По ПСП, суперы это конечно любят. Но это же заслуга не ARM архитектуры, а интегрированной прямо на подложку с ARM чипом HBM памяти. Такой «чит» можно и к х86 легко применить при необходимости и к векторным ускорителям (там собственно он уже давно используется).
                  Только он имеет как большие плюсы: собственно очень высокую ПСП.
                  Так и большие минусы: объем такой памяти сильно ограничен, а стоимость получается намного выше традиционной DDR памяти.
                    +2
                    Интересно за счет чего они этого достигли?
                    Каждое ядро имеет 2 x512bit FMA.

                    А те что в смартах и подобных мобильных применениях и во все 10-15 раз медленнее в вычислениях на 1 ядро чем современные х86.
                    «Те» это какие? Apple A13 имеет IPC выше чем у Skylake, но может быть чуть ниже чем у Sunny Cove — надо проверять.
                    A12X и так быстрее большинства ноутов и обходится без активного охлаждения.
                    У Snapdragon 865 уже сейчас ПСП выше чем у десктопных 9900.

                    так и по энергоэффективности.
                    Они хуже A64FX.
                    Пиковые флопсы у GPU больше, но вот только они не достижимы даже в linpack.

                    Поэтому почти все современные проекты суперкомпьютеров включают подобные ускорители и именно на них приходится основная доля пиковой производительности, а не на х86 ядра.
                    БОльшая часто кода всё равно на CPU. Запуск кернелов на GPU занимает время. Обмен данными между памятью акселератора и основной не бесплатный.

                    Какой же A64FX монолитный?
                    Самым непосредственным образом. «Network on chip» не заметили?
                    Да тут 4 кластера, но обмениваться данными они могут достаточно быстро.

                    Но это же заслуга не ARM архитектуры
                    Производительность не заслуга х86 архитектуры.

                      0
                      Вот свежее смешное подтягивается из недр RISC-V. Производительность в пересчёте 1 Топ/с на чип (50 Гоп/с при 50 мВт). Ещё не полноценные флопы, но в GreenWaves быстро копают))
                        0
                        поправка: производительность в пересчёте 1 Топ/с на ватт :)
                  0
                  Добавлю, что есть нижняя оценка серверных ARM'ов по производительности – это серийный ThunderX2 (0,56 ТФлоп/с на чип) и готовящийся на 2020 год ThunderX3 (1,1 ТФлоп/с).

                  И верхняя оценка – это Fujitsu A64FX с InfiniBand (от 2,7 до 3 Тфлоп/с на чип) и он же с интерконнектом Tofu (3,3 ТФлоп/с на чип).

                  А между ними быстрейший Xeon Skylake Platinum (2 Тфлоп/с на чип).

                  Так что Интелу придётся очень извернуться, что бы повысить производительность своих чипов минимум в 1,5 раза для превосходства над серверными ARM'ами, имеющими между прочим резерв по энергоэффективности.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое