company_banner

Встречаем новые процессоры Intel



    Вчера, 02.04.2019, корпорация Intel объявила о долгожданном обновлении процессоров семейства Intel® Xeon® Scalable Processors, представленного в середине 2017 года. Новые процессоры базируются на микроархитектуре, получившей кодовое имя Cascade Lake и построены по улучшенному 14-nm технологическому процессу.

    Особенности новых процессоров




    Для начала взглянем на отличия в маркировке. В предыдущей статье про Skylake-SP мы уже упоминали, что все процессоры делятся на 4 серии — Bronze, Silver, Gold и Platinum. О том, к какой серии принадлежит модель процессора говорит первая цифра номера:

    • 3 — Bronze,
    • 4 — Silver,
    • 5, 6 — Gold,
    • 8 — Platinum.

    Вторая цифра сообщает о поколении процессора. В случае с семейством Intel® Xeon® Scalable Processors поколения с кодовыми именами:

    • 1 — Skylake,
    • 2 — Cascade Lake.

    Следующие две цифры обозначают так называемый SKU (Stock Keeping Unit). По сути, это просто идентификатор CPU с конкретным набором доступных функций.

    Также после номера модели могут идти индексы, обозначаемые одной или двумя буквами. Первая буква индекса обозначает особенности архитектуры или оптимизации самого процессора, а вторая — емкость памяти на сокет.

    Для примера, возьмем процессор с обозначением Intel® Xeon® 6240. Расшифруем:

    • 6 — процессор серии Gold,
    • 2 — поколение Cascade Lake,
    • 40 — SKU.

    Производительность


    Процессоры нового поколения спроектированы с расчетом на использование в сферах виртуализации, искусственного интеллекта, а также высокоэффективных вычислений. Первым заметным изменением стал рост тактовой частоты. Это стало вполне ожидаемо, поскольку существует большое количество серверных приложений, для которых тактовая частота важнее, чем количество процессорных ядер. Например, финансовый продукт 1С, системные требования которого явно говорят, что чем выше частота процессора, тем быстрее конечный пользователь получит результат.

    В ряде случаев было увеличено и количество ядер. Для наглядности мы составили сравнительные таблицы нескольких процессоров семейства Intel® Xeon® Scalable Processors первого и второго поколения:
    Intel® Xeon® Silver 4114
    (10 ядер)
    Intel® Xeon® Silver 4214
    (12 ядер)
    Тактовая частота 2.20 GHz 2.20 GHz
    В режиме Turbo 3.00 GHz 3.20 GHz
    Intel® Xeon® Gold 5118
    (12 ядер)
    Intel® Xeon® Gold 5218
    (16 ядер)
    Тактовая частота 2.30 GHz 2.30 GHz
    В режиме Turbo 3.20 GHz 3.90 GHz
    Intel® Xeon® Gold 6140
    (18 ядер)
    Intel® Xeon® Gold 6240
    (18 ядер)
    Тактовая частота 2.30 GHz 2.60 GHz
    В режиме Turbo 3.70 GHz 3.90 GHz
    Intel® Xeon® Gold 6144
    (8 ядер)
    Intel® Xeon® Gold 6244
    (8 ядер)
    Тактовая частота 3.50 GHz 3.60 GHz
    В режиме Turbo 4.20 GHz 4.40 GHz
    Рост тактовой частоты неизбежно влечет за собой повышение тепловыделения. Для флагманских процессоров серии Platinum оно может достигать 205W, что является весьма серьезным испытанием для традиционной воздушной системы охлаждения. Можно предположить, что в обозримом будущем серверные платформы потребуют жидкостного охлаждения.

    Как и в предыдущем поколении Skylake SP, процессоры устанавливаются в сокет LGA3647 (Socket P), что обусловлено использованием 6-канального контроллера памяти (максимально до 2-х модулей памяти на канал). Частота памяти составляет 2666 MT/s, однако при использовании процессоров серий 6000 и 8000 можно задействовать память с частотой 2933 MT/s (не более 1 модуля на каждый канал).



    Шина Ultra-Path Interconnect, успешно примененная в процессорах первого поколения Intel Xeon SP, осталась и во втором поколении, обеспечивая обмен данными между процессорами на скоростях 9.6 GT/s либо 10.4 GT/s для каждого канала. Это позволяет эффективно масштабировать аппаратную платформу до 8 физических процессоров, оптимизируя пропускную способность и энергоэффективность.

    Тесты


    Мы начали тестировать процессоры нового поколения с помощью набора тестов SPEC, которые имитируют нагрузку, основанную на решении наиболее насущных жизненных задач. Эти тесты представляют собой как простейшие вычисления, так и расчет различных физических процессов, например, решения задач молекулярной физики и гидродинамики.

    На текущий момент у нас готовы результаты некоторых SPEC-тестов для целочисленных вычислений на примере процессоров Intel® Xeon® Gold 6140 и Intel® Xeon® Gold 6240.

    IntRate
    Тест Intel® Xeon® Gold 6140 Intel® Xeon® Gold 6240
    500.perlbench_r 147 157
    531.deepsjeng_r 127 139
    541.leela_r 125 127
    548.exchange2_r 176 203

    IntSpeed
    Тест Intel® Xeon® Gold 6140 Intel® Xeon® Gold 6240
    600.perlbench_s 5.67 6.33
    602.gcc_s 6.95 8.74
    641.leela_s 3.24 3.62
    648.exchange2_s 5.94 7.90

    Описание тестов
    • perlbench_r — урезанная версия языка Perl. Тестовая нагрузка имитирует работу популярной системы защиты от спама SpamAssassin;
    • deepsjeng_r — симуляция игры в шахматы. Сервер производит глубинное изучение игровых позиций с использованием алгоритма альфа-бета-отсечения;
    • leela_r — симуляция игры в го. В процессе тестирования происходит анализ паттернов движения, а также выборочный поиск по дереву на основе верхних доверительных границ;
    • exchange2_r — генератор нетривиальных головоломок судоку. Написанный на языке Fortran 95, он задействует большинство функций обработки массивов;
    • gcc_s компилятор языка C. Тестовая нагрузка «собирает» компилятор GCC из исходных кодов для микропроцессорной архитектуры IA-32.


    По результатам проведенных тестов становится ясно, что процессоры нового поколения быстрее выполняют целочисленные вычисления по сравнению с предыдущим поколением. С результатами других тестов мы поделимся в одной из следующих статей.

    Поддержка Intel® Optane™ DC Persistent Memory


    Ускорение работы высоконагруженных баз данных и приложений — это то, чего ожидали все заказчики от грядущего обновления. Поэтому ключевым нововведением стала поддержка памяти Intel® Optane™ DC Persistent Memory, более известной под кодовым именем Apache Pass.



    Эта память призвана стать универсальным решением задачи, когда использование DRAM нужного объема экономически невыгодно, а скоростных характеристик даже флагманских SSD-накопителей недостаточно.

    Ярким примером может стать размещение баз данных напрямую в памяти Intel® Optane™ DC Persistent Memory, что позволит избежать необходимости постоянного обмена данными между оперативной памятью и устройством хранения данных (особенность, присущая традиционным системам).

    Новый тип памяти устанавливается непосредственно в слот DIMM и полностью с ним совместим. Доступны модули со следующим объемом:

    • 128 ГБ,
    • 256 ГБ,
    • 512 ГБ.

    Настолько существенные объемы модулей позволят гибко сконфигурировать аппаратную платформу, получив весьма емкое и очень быстрое дисковое пространство для работы высоконагруженных систем. Intel® Optane™ DC Persistent Memory обладает поистине огромным потенциалом для применения, в том числе и для целей машинного обучения.

    Ускорение глубинного обучения


    Помимо поддержки нового типа памяти инженеры Intel позаботились и об ускорении процесса глубинного обучения. Поскольку для сверточных нейронных сетей часто требуется многократное умножение 8-ми и 16-ти битных значений, новые процессоры получили поддержку инструкций AVX-512 VNNI (Vector Neural Network Instructions). Это позволит оптимизировать и ускорить вычисления в несколько раз.

    Лучшая эффективность достигается за счет внедрения следующего набора инструкций:

    • VPDPBUSB (для вычислений INT8),
    • VPDPWSSD (для вычислений INT16).

    Суть в том, чтобы уменьшить количество элементов, обрабатываемых за цикл. Инструкция VPDPWSSD объединяет две инструкции INT16, а также использует константу INT32, чтобы заменить две текущие инструкции PMADDWD и VPADDD. Инструкция VPDPUSB аналогично сокращает количество элементов, заменяя три существующие инструкции VPMADDUSBW, VPMADDWD и VPADDD.

    Таким образом, при правильном применении нового набора инструкций можно в два-три раза сократить количество обрабатываемых элементов за цикл и увеличить скорость обработки данных. Соответствующий фреймворк для новых инструкций станет частью таких популярных программных библиотек для машинного обучения, как:


    Оптимизация распределения нагрузки


    Равномерная загрузка вычислительных ресурсов стала проще с технологией Intel® Speed Select Technology (на процессорах с индексом Y). Суть в том, что каждая операция начинает ассоциироваться с количеством задействованных ядер и тактовой частотой. В зависимости от выбранного профиля каждой операции выделяются ресурсы следующим образом:

    • больше ядер, но с пониженной тактовой частотой;
    • меньше ядер, но с повышенной тактовой частотой.

    Такой подход позволяет наиболее полно утилизировать ресурсы, что особенно важно при использовании виртуализованных сред. Это позволит уменьшить затраты, оптимизировав нагрузку на хосты виртуализации.

    Акселерация научных вычислений


    Обработка научных данных, особенно при моделировании физических процессов на уровне частиц (например, расчет электромагнитных взаимодействий) требует колоссального количества параллельных вычислений. Эта задача может быть решена при помощи CPU, GPU или FPGA.

    Многоядерные CPU универсальны за счет наличия большого количества программных средств и библиотек для обработки данных. Применение GPU для этих целей также весьма эффективно, ведь на них можно запускать тысячи параллельных потоков непосредственно на аппаратных графических ядрах. Существуют удобные для разработки фреймворки, такие как OpenCL или CUDA, позволяющие создавать приложения любой сложности с использованием вычислений на GPU.

    Тем не менее, существует еще один аппаратный инструмент, о котором мы уже рассказывали в предыдущих статьях — FPGA. Возможность запрограммировать такие устройства на выполнение специфических вычислений позволяет ускорить обработку данных, частично разгрузив CPU. Подобный сценарий можно реализовать на новых процессорах Cascade Lake в связке с дискретными Intel® Stratix® 10 SX FPGA.

    Несмотря на меньшую по сравнению с обычными CPU тактовую частоту, FPGA способен показать производительность в десятки раз выше. Для некоторых видов задач, таких как обработка цифровых сигналов, Intel® Stratix® 10 SX способна показать результаты до 10 TFLOPS (tera floating-point operations per second).

    Масштабирование платформ


    Ведение бизнеса в реальном времени подразумевает не только стабильность, но и возможность масштабирования on-demand. Хорошим примером может послужить высокопроизводительная платформа SAP HANA, используемая для хранения и обработки данных. Физическое развертывание этой платформы требует весьма мощных аппаратных ресурсов.

    Процессоры Intel® Xeon® Scalable созданы таким образом, чтобы превратить многосокетные системы в базовые элементы IT-инфраструктуры, обеспечивая масштабирование для удовлетворения требований бизнес-приложений.



    Реализовано это в виде поддержки внешних Node-контроллеров, что позволяет создать конфигурации более высокого уровня, чем может обеспечить одна отдельно взятая платформа. Например, можно создать конфигурацию из 32 физических процессоров, объединив ресурсы нескольких многосокетных платформ в единое целое.

    Заключение


    Увеличение рабочих частот и процессорных ядер, увеличение производительности, поддержка памяти Intel® Optane™ DC Persistent Memory— все эти улучшения значительно повышают вычислительную мощность каждой платформы, сокращая затраты на количество используемого оборудования и повышая эффективность обработки данных. Принцип масштабируемости, заложенный на уровне архитектуры, позволяет выстраивать IT-инфраструктуру любой сложности и достигать высоких показателей производительности и энергоэффективности.

    Поскольку Selectel является партнером Intel уровня Platinum — нашим клиентам уже сейчас доступны для заказа процессоры Intel® Xeon® Scalable нового поколения в серверах произвольной конфигурации.

    Арендовать сервер c процессорами нового поколения очень просто! Достаточно перейти на страницу конфигуратора и выбрать нужные комплектующие. Любые вопросы, относительно работы услуг можно задать нашим специалистам, создав тикет в панели управления. Оплачивая сервер на несколько месяцев вперед, Вы получаете скидку до 15%.

    Если же вам интересно принять участие в тестировании самых новейших технологий, то присоединяйтесь к нашей лаборатории Selectel Lab.

    Мы будет рады услышать ваши вопросы и предложения в комментариях.
    Selectel
    150,00
    ИТ-инфраструктура для бизнеса
    Поддержать автора
    Поделиться публикацией

    Комментарии 16

      +2
      Планируются ли готовые конфигурации с новыми процессорами и возможна ли миграция на них?
        +2
        Да, планируются. Просим уточнить — что имеется в виду под миграцией? Если речь о переносе данных со старого сервера на новый, то мы можем решить этот вопрос в рамках услуги Администрирование сервисов.
        0
        А есть глубинное обучение?)
          +13
          Когда планируется вернуть кнопку Turbo на десктоп?
            0
            Учитывая энергетику, это скоре будет тип «тумбочка» или«шкаф».
            +2
            Если на оперативную память поставить столько же контактов, лучше будет? И разместить на другой стороне материнской платы плоскостью как процессор, там всё равно свободное место.
              0
              На другую
              Сторону лазать неудобно
                +1
                Это легко решаемо
                Да и дергать память (с сокета?) придется не часто
              +1
              Посмотрел цены: s21.q4cdn.com/600692695/files/doc_downloads/cpu_price/2019/04/02/Apr_02_19_Recommended_Customer_Price_List.pdf
              Чёрт побери, 17 килобаксов за 1 процессор
              Интересно конечно теоретически, но думаю надо подождать :)
                +3
                Подскажите, какие возможности программирования FPGA предусмотрены для данного процессора? Как понимаю, будет OpenCL, но может будет и что-то ещё? Будет ли в какой-то форме доступно низкоуровневое программирование (VHDL/Verilog)?
                  +2
                    0
                    И BGA разъёмами, по информации Anandtech.
                    the Xeon Platinum 9200 family. Intel will be offering three parts, and where previously the company stated it would offer up to 48 cores in a single package, it will now offer up to 56, with the top TDP up to 400W. These processors are BGA only
                      +1
                      Так у них запуск 2 квартал. Нет их ещё в продаже ещё, вот и не пишут про них
                      –1
                      Интересно, а в новых процах добавили возможность включить старые дырки в безопасности. Для совместимости. Или чтобы они прямо по географии расположения сервера включались или выключались?
                      P.S. Про новые дырки даже не спрашиваю, правила приличий требуют их добавить, чтобы было чем пугать в дальнейшем.
                        0
                        Что же ответит AMD?
                          0
                          а материнки с LGA3647 поддерживают старенькие процы типа Xeon Phi 7290? пока все еще не могу понять… а 72 ядра как-никак, хоть и медленных :)

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое