Как стать автором
Обновить

На портале Phoronix опубликованы результаты производительности AVX-512 на Intel Xeon 5-го поколения «Emerald Rapids»

Время на прочтение10 мин
Количество просмотров4.5K

На портале Phoronix, 5 января 2024 года, Майклом Ларабелем были опубликованы результаты тестов производительности набора инструкций AVX-512 на процессорах Intel Xeon 5-го поколения "Emerald Rapids"

На процессорах Intel Xeon 5-го поколения "Emerald Rapids", которые были выпущены в прошлом месяце, в дополнение к повышению энергоэффективностиподдержке более быстрой памяти DDR5 и многим другим усовершенствованиям, одним из более заметных улучшений в архитектуре, о которых говорила Intel, была улучшенная поддержка исполнения инструкций AVX-512. Далее были проведены несколько тестов с использованием флагманского Intel Xeon Platinum 8592 +, в которых рассматривались показатели производительности и тепловыделения / тактовой частоты / мощности при переключении поддержки AVX-512.

Intel Xeon Platinum 8592+
Intel Xeon Platinum 8592+

Поскольку Emerald Rapids демонстрирует улучшения, связанные с поддержкой AVX-512, например, позволяющие процессорам достигать более высоких частот при рабочих нагрузках AVX-512, было проведено несколько тестов, которые помогут количественно оценить преимущества AVX-512 с этими новыми серверными процессорами Intel Xeon Scalable. Был выполнен набор тестов для различных рабочих нагрузок AVX-512 в режиме по умолчанию (включено), а затем тесты были выполнены с отключенной поддержкой AVX-512, чтобы увидеть влияние на исходную производительность, а также энергопотребление и энергоэффективность процессора, пиковые частоты процессора и тепловую нагрузку.

Конфигурация тестового стенда

Processor

2 x INTEL XEON PLATINUM 8592+ @ 3.90GHz (128 Cores / 256 Threads)

Motherboard

Quanta Cloud S6Q-MB-MPS (3B05.TEL4P1 BIOS)

Chipset

Intel Device 1bce

Memory

1008GB

Disk

3201GB Micron_7450_MTFDKCB3T2TFS

Graphics

ASPEED

Network

2 x Intel X710 for 10GBASE-T

OS

Ubuntu 23.10

Kernel

6.5.0-13-generic (x86_64)

Compiler

13.2.0

File-System

ext4

Screen Resolution

1920x1080

System Logs
  • Transparent Huge Pages: madvise

  • --build=x86_64-linux-gnu --disable-vtable-verify --disable-werror --enable-bootstrap --enable-cet --enable-checking=release --enable-clocale=gnu --enable-default-pie --enable-gnu-unique-object --enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 --enable-libphobos-checking=release --enable-libstdcxx-debug --enable-libstdcxx-time=yes --enable-link-serialization=2 --enable-multiarch --enable-multilib --enable-nls --enable-objc-gc=auto --enable-offload-defaulted --enable-offload-targets=nvptx-none=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-gcn/usr --enable-plugin --enable-shared --enable-threads=posix --host=x86_64-linux-gnu --program-prefix=x86_64-linux-gnu- --target=x86_64-linux-gnu --with-abi=m64 --with-arch-32=i686 --with-build-config=bootstrap-lto-lean --with-default-libstdcxx-abi=new --with-gcc-major-version-only --with-multilib-list=m32,m64,mx32 --with-target-system-zlib=auto --with-tune=generic --without-cuda-driver -v

  • Scaling Governor: intel_pstate performance (EPP: performance) - CPU Microcode: 0x21000161

  • Python 3.11.6

  • gather_data_sampling: Not affected + itlb_multihit: Not affected + l1tf: Not affected + mds: Not affected + meltdown: Not affected + mmio_stale_data: Not affected + retbleed: Not affected + spec_rstack_overflow: Not affected + spec_store_bypass: Mitigation of SSB disabled via prctl + spectre_v1: Mitigation of usercopy/swapgs barriers and __user pointer sanitization + spectre_v2: Mitigation of Enhanced / Automatic IBRS IBPB: conditional RSB filling PBRSB-eIBRS: SW sequence + srbds: Not affected + tsx_async_abort: Not affected

Два процессора Intel Xeon Platinum 8592 + работали на эталонном сервере Intel Eagle Stream reference server при использовании ОС Ubuntu 23.10 с ядром Linux 6.5. Единственное изменение, внесенное в состояние системы во время тестирования, касалось работы с активной поддержкой AVX-512 или без нее.4

miniBUDE 20210901
Implementation: OpenMP - Input Deck: BM2

Performance GFInst/s, More Is Better

AVX-512 On
SE +/- 49.58, N = 15

4975.70

AVX-512 Off
SE +/- 24.22, N = 15

3112.01

1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm

miniBUDE 20210901
Implementation: OpenMP - Input Deck: BM2

Billion Interactions/s, More Is Better

AVX-512 On
SE +/- 1.98, N = 15

199.03

AVX-512 Off
SE +/- 0.97, N = 15

124.48

1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm

Хотя выпуск AVX-512 начался много лет назад с большой критики по поводу мощности
и теплового воздействия, разница в производительности при использовании AVX-512
может оказаться весьма полезной, особенно на процессорах нового поколения.
Процессоры AMD Zen 4 также доказали свою полезность для AVX-512 благодаря
своему подходу.

miniBUDE 20210901
CPU Temperature Monitor

Celsius, Fewer Is Better

AVX-512 On

Min: 36 / Avg: 54.58 / Max: 63

AVX-512 Off

Min: 35 / Avg: 55.67 / Max: 63

miniBUDE 20210901
CPU Peak Freq (Highest CPU Core Frequency) Monitor

Megahertz, More Is Better

AVX-512 On

Min: 800 / Avg: 2947.32 / Max: 3907

AVX-512 Off

Min: 800 / Avg: 2958.53 / Max: 3904

Когда AVX-512 использовался для бенчмарка miniBUDE HPC, Xeon Platinum 8592 + не
показал большой разницы в пиковой частоте процессора и температуре процессора...
Это намного лучше чем у Skylake, и с очень существенными отличиями показателей температуры.

miniBUDE 20210901
CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 196.6 / Avg: 621.22 / Max: 756.81

AVX-512 Off

Min: 196.96 / Avg: 634.15 / Max: 758.15

miniBUDE 20210901
Implementation: OpenMP - Input Deck: BM2

Billion Interactions/s Per Watt, More Is Better

AVX-512 On

0.320

AVX-512 Off

0.196

Энергопотребление процессора в конфигурации 2P также не сильно отличалось при
использовании AVX512, что, в свою очередь, означало значительное повышение общей
энергоэффективности.

Embree 4.3
Binary: Pathtracer ISPC - Model: Crown

Frames Per Second, More Is Better

AVX-512 On
SE +/- 0.55, N = 7

151.47
MIN: 141.84 / MAX: 164.53

AVX-512 Off
SE +/- 0.23, N = 7

137.62
MIN: 125.91 / MAX: 154.51

Embree 4.3
Binary: Pathtracer ISPC - Model: Asian Dragon

Frames Per Second, More Is Better

AVX-512 On
SE +/- 0.38, N = 8

200.90
MIN: 189.72 / MAX: 217.48

AVX-512 Off
SE +/- 0.30, N = 7

181.83
MIN: 169.55 / MAX: 200.28

Embree 4.3
Binary: Pathtracer ISPC - Model: Asian Dragon Obj

Frames Per Second, More Is Better

AVX-512 On
SE +/- 0.52, N = 4

174.38
MIN: 165.02 / MAX: 188.21

AVX-512 Off
SE +/- 0.19, N = 4

159.48
MIN: 149.9 / MAX: 174.65

Embree 4.3
CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 183.04 / Avg: 330.48 / Max: 754.13

AVX-512 Off

Min: 183.81 / Avg: 349.88 / Max: 758.31

Embree 4.3
Binary: Pathtracer ISPC - Model: Asian Dragon Obj

Frames Per Second Per Watt, More Is Better

AVX-512 On

0.528

AVX-512 Off

0.456

OpenVKL 2.0.0
Benchmark: vklBenchmarkCPU ISPC

Items / Sec, More Is Better

AVX-512 On
SE +/- 30.78, N = 3

3245
MIN: 250 / MAX: 36039

AVX-512 Off
SE +/- 6.36, N = 3

2365
MIN: 125 / MAX: 27301

Собственные программные пакеты Intel creator с программным пакетом oneAPI по прежнему пользуются спросом у AVX-512 и очень хорошо работают при использовании этого стиля программирования.

OpenVKL 2.0.0
CPU Temperature Monitor

Celsius, Fewer Is Better

AVX-512 On

Min: 35 / Avg: 56.19 / Max: 61

AVX-512 Off

Min: 36 / Avg: 54.42 / Max: 60

OpenVKL 2.0.0
CPU Peak Freq (Highest CPU Core Frequency) Monitor

Megahertz, More Is Better

AVX-512 On

Min: 800 / Avg: 2934.37 / Max: 3913

AVX-512 Off

Min: 500 / Avg: 2909.25 / Max: 3917

OpenVKL 2.0.0
CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 199.73 / Avg: 636.08 / Max: 754.77

AVX-512 Off

Min: 105.27 / Avg: 607.73 / Max: 758.79

OpenVKL 2.0.0
Benchmark: vklBenchmarkCPU ISPC

Items / Sec Per Watt, More Is Better

AVX-512 On

5.102

AVX-512 Off

3.892

При использовании AVX-512 по-прежнему не наблюдалось таких негативных
побочных эффектов, как у предыдущих поколений Intel Xeon.

OSPRay 2.12
Benchmark: gravity_spheres_volume/dim_512/ao/real_time

Items Per Second, More Is Better

AVX-512 On
SE +/- 0.19, N = 3

42.65

AVX-512 Off
SE +/- 0.07, N = 3

23.41

OSPRay 2.12
Benchmark: gravity_spheres_volume/dim_512/scivis/real_time

Items Per Second, More Is Better

AVX-512 On
SE +/- 0.07, N = 3

41.61

AVX-512 Off
SE +/- 0.16, N = 3

20.94

OSPRay 2.12
Benchmark: gravity_spheres_volume/dim_512/pathtracer/real_time

Items Per Second, More Is Better

AVX-512 On
SE +/- 0.21, N = 4

17.04

AVX-512 Off
SE +/- 0.08, N = 15

10.57

AVX-512 с Emerald Rapids очень хорошо справлялся с множеством различных рабочих
нагрузок. Тепловое воздействие было небольшим, а увеличение энергопотребления процессора, как правило, было минимальным и имело смысл для повышения общей энергоэффективности.

Y-Cruncher 0.8.2
Pi Digits To Calculate: 5B

Seconds, Fewer Is Better

AVX-512 On
SE +/- 0.02, N = 3

27.06

AVX-512 Off
SE +/- 0.04, N = 3

33.68

Y-Cruncher 0.8.2
CPU Temperature Monitor

Celsius, Fewer Is Better

AVX-512 On

Min: 37 / Avg: 48.55 / Max: 55

AVX-512 Off

Min: 37 / Avg: 49.71 / Max: 57

Y-Cruncher 0.8.2
CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 144.38 / Avg: 545.54 / Max: 739.45

AVX-512 Off

Min: 206.72 / Avg: 566.95 / Max: 745.43

Y-Cruncher 0.8.2
CPU Peak Freq (Highest CPU Core Frequency) Monitor

Megahertz, More Is Better

AVX-512 On

Min: 800 / Avg: 2830.68 / Max: 3904

AVX-512 Off

Min: 800 / Avg: 2895.61 / Max: 3907

AVX-512 на Emerald Rapids оказался очень полезеным для программы Y-Cruncher Pi.

oneDNN 3.3
Harness: Recurrent Neural Network Inference - Data Type: bf16bf16bf16 - Engine: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 31.97, N = 15

1331.74
MIN: 775.81

AVX-512 Off
SE +/- 54.32, N = 15

2341.14
MIN: 1256.55

1. (CXX) g++ options: -O3 -march=native -fopenmp -msse4.1 -fPIC -pie -ldl -lpthread

OSPRay Studio 0.13Camera: 1 - Resolution: 4K - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 1.20, N = 3

749

AVX-512 Off
SE +/- 2.03, N = 3

893

OSPRay Studio 0.13
Camera: 3 - Resolution: 4K - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 0.88, N = 3

886

AVX-512 Off
SE +/- 6.17, N = 3

1055

OSPRay Studio 0.13
Camera: 1 - Resolution: 4K - Samples Per Pixel: 32 - Renderer: Path Tracer - Acceleration: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 74.75, N = 3

23825

AVX-512 Off
SE +/- 274.25, N = 3

33603

OSPRay Studio 0.13
Camera: 3 - Resolution: 4K - Samples Per Pixel: 32 - Renderer: Path Tracer - Acceleration: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 167.00, N = 3

32723

AVX-512 Off
SE +/- 82.99, N = 3

38787

OSPRay Studio 0.13
Camera: 3 - Resolution: 1080p - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 0.00, N = 3

223

AVX-512 Off
SE +/- 2.41, N = 15

279

OSPRay Studio 0.13
Camera: 3 - Resolution: 1080p - Samples Per Pixel: 32 - Renderer: Path Tracer - Acceleration: CPU

ms, Fewer Is Better

AVX-512 On
SE +/- 43.03, N = 3

7146

AVX-512 Off
SE +/- 101.69, N = 3

8596

Таким образом, AVX-512 показал очень хорошие результаты работы с процессорами Intel 5th Gen Xeon Scalable "Emerald Rapids".

TensorFlow 2.12
Device: CPU - Batch Size: 16 - Model: ResNet-50

images/sec, More Is Better

AVX-512 On
SE +/- 0.41, N = 3

49.26

AVX-512 On
SE +/- 0.41, N = 3

39.06

TensorFlow 2.12
CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 170.32 / Avg: 398.6 / Max: 450.75

AVX-512 Off

Min: 206.9 / Avg: 413.92 / Max: 462.77

TensorFlow 2.12
Device: CPU - Batch Size: 16 - Model: ResNet-50

images/sec Per Watt, More Is Better

AVX-512 On

0.124

AVX-512 Off

0.094

TensorFlow 2.12
Device: CPU - Batch Size: 64 - Model: ResNet-50

images/sec, More Is Better

AVX-512 On
SE +/- 0.16, N = 3

97.85

AVX-512 Off
SE +/- 0.58, N = 3

66.08

TensorFlow 2.12
CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 207.18 / Avg: 476.86 / Max: 531.76

AVX-512 Off

Min: 206.82 / Avg: 480.23 / Max: 511.44

TensorFlow 2.12
Device: CPU - Batch Size: 64 - Model: ResNet-50

images/sec Per Watt, More Is Better

AVX-512 On

0.205

AVX-512 Off

0.138

В то время как AVX-512 изначально вызывал много критики по поводу энергопотребления и тепловых характеристик, новейшие серверные процессоры Intel (и AMD) с AVX-512 продолжают демонстрировать очень значительные достижения и без этих ранних болевых точек.

OpenVINO 2023.2.dev
Model: Face Detection FP16 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 0.04, N = 3

-isystem -std=c++11 -fPIC
-fvisibility=hidden -mavx2 -mfma -MD -MT -MF

236.14

AVX-512 Off
SE +/- 0.05, N = 3

-pie
24.67

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.dev
Model: Person Detection FP16 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 0.82, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
747.49

AVX-512 Off
SE +/- 0.31, N = 3

-pie
238.22

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.dev
Model: Person Detection FP32 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 1.03, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
747.77

AVX-512 Off
SE +/- 0.09, N = 3

-pie
237.77

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Vehicle Detection FP16 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 1.59, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
4765.95

AVX-512 Off
SE +/- 1.56, N = 3

-pie
2116.64

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Weld Porosity Detection FP16 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 24.15, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
32234.04

AVX-512 Off
SE +/- 0.50, N = 3

2822.71

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.dev
Model: Road Segmentation ADAS FP16-INT8 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 2.91, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
2389.55

AVX-512 Off
SE +/- 0.40, N = 3

-pie
1882.97

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Weld Porosity Detection FP16-INT8 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 80.54, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
49132.99

AVX-512 Off
SE +/- 3.35, N = 3

-pie
9439.92

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.dev
Model: Age Gender Recognition Retail 0013 FP16-INT8 - Device: CPU

FPS, More Is Better

AVX-512 On
SE +/- 940.07, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF
123447.74

AVX-512 Off
SE +/- 496.38, N = 3

-pie
101244.00

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

AVX-512 и AMX продолжают оказывать большое влияние на инструментарий
искусственного интеллекта OpenVINO от Intel.

CPU Peak Freq (Highest CPU Core Frequency) Monitor
Phoronix Test Suite System Monitoring

Megahertz

AVX-512 On

Min: 800 / Avg: 2954.57 / Max: 3913

AVX-512 Off

Min: 500 / Avg: 3017.93 / Max: 3917

Если посмотреть на максимальную частоту процессора, достигаемую при постоянной загрузке в ходе 68 сравнительных тестов включения / выключения AVX-512, результаты в целом были довольно схожими. При использовании AVX-512 максимальная частота всех ядер Xeon Platinum 8592 +, как правило, составляла 2,95 ГГц по сравнению с 3,01 ГГц, когда
AVX-512 был отключен. Даже при использовании AVX-512 во всех этих тестах у процессора Xeon Platinum 5-го поколения не возникло проблем с достижением частоты turbo 3,9 ГГц.

CPU Temperature Monitor
Phoronix Test Suite System Monitoring

Celsius

AVX-512 On

Min: 30 / Avg: 54 / Max: 64

AVX-512 Off

Min: 29 / Avg: 53.19 / Max: 66

Разница в температуре ядра процессора между запуском AVX-512 и при его отключении была минимальной... Разница всего в градусе или около того, что намного лучше, чем у Intel AVX-512 предыдущих поколений.

CPU Power Consumption Monitor
Phoronix Test Suite System Monitoring

Watts

AVX-512 On

Min: 99.6 / Avg: 589.71 / Max: 894.8

AVX-512 Off

Min: 103.63 / Avg: 583.08 / Max: 772.16

Энергопотребление Xeon Platinum 8592 + с двумя процессорами в среднем было лишь немного выше при использовании AVX-512. Опять же, приятно видеть, что, в свою очередь, обеспечивает значительное повышение энергоэффективности при использовании AVX-512.

Geometric Mean Of All Test Results
Result Composite - Intel 5th Gen Xeon AVX-512 Comparison

Geometric Mean, More Is Better

AVX-512 On

31.37

AVX-512 Off

15.66

Выводы

Полученные при тестировании результаты не сильно отличаются от предыдущих процессоров Intel Xeon Sapphire Rapids, но в любом случае приятно видеть, что они помогают количественно оценить преимущества AVX-512 в наши дни.
AVX-512 с Emerald Rapids обеспечивает значительное повышение производительности и не требует значительных затрат на электроэнергию / тепло по сравнению с гораздо более старыми серверами Intel.

Теги:
Хабы:
Всего голосов 4: ↑4 и ↓0+4
Комментарии3

Другие новости

Истории

Ближайшие события

25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань