На портале Phoronix, 5 января 2024 года, Майклом Ларабелем были опубликованы результаты тестов производительности набора инструкций AVX-512 на процессорах Intel Xeon 5-го поколения "Emerald Rapids"
На процессорах Intel Xeon 5-го поколения "Emerald Rapids", которые были выпущены в прошлом месяце, в дополнение к повышению энергоэффективности, поддержке более быстрой памяти DDR5 и многим другим усовершенствованиям, одним из более заметных улучшений в архитектуре, о которых говорила Intel, была улучшенная поддержка исполнения инструкций AVX-512. Далее были проведены несколько тестов с использованием флагманского Intel Xeon Platinum 8592 +, в которых рассматривались показатели производительности и тепловыделения / тактовой частоты / мощности при переключении поддержки AVX-512.
Поскольку Emerald Rapids демонстрирует улучшения, связанные с поддержкой AVX-512, например, позволяющие процессорам достигать более высоких частот при рабочих нагрузках AVX-512, было проведено несколько тестов, которые помогут количественно оценить преимущества AVX-512 с этими новыми серверными процессорами Intel Xeon Scalable. Был выполнен набор тестов для различных рабочих нагрузок AVX-512 в режиме по умолчанию (включено), а затем тесты были выполнены с отключенной поддержкой AVX-512, чтобы увидеть влияние на исходную производительность, а также энергопотребление и энергоэффективность процессора, пиковые частоты процессора и тепловую нагрузку.
Конфигурация тестового стенда
Processor | 2 x INTEL XEON PLATINUM 8592+ @ 3.90GHz (128 Cores / 256 Threads) |
Motherboard | Quanta Cloud S6Q-MB-MPS (3B05.TEL4P1 BIOS) |
Chipset | Intel Device 1bce |
Memory | 1008GB |
Disk | 3201GB Micron_7450_MTFDKCB3T2TFS |
Graphics | ASPEED |
Network | 2 x Intel X710 for 10GBASE-T |
OS | Ubuntu 23.10 |
Kernel | 6.5.0-13-generic (x86_64) |
Compiler | 13.2.0 |
File-System | ext4 |
Screen Resolution | 1920x1080 |
System Logs
Transparent Huge Pages: madvise
--build=x86_64-linux-gnu --disable-vtable-verify --disable-werror --enable-bootstrap --enable-cet --enable-checking=release --enable-clocale=gnu --enable-default-pie --enable-gnu-unique-object --enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 --enable-libphobos-checking=release --enable-libstdcxx-debug --enable-libstdcxx-time=yes --enable-link-serialization=2 --enable-multiarch --enable-multilib --enable-nls --enable-objc-gc=auto --enable-offload-defaulted --enable-offload-targets=nvptx-none=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-gcn/usr --enable-plugin --enable-shared --enable-threads=posix --host=x86_64-linux-gnu --program-prefix=x86_64-linux-gnu- --target=x86_64-linux-gnu --with-abi=m64 --with-arch-32=i686 --with-build-config=bootstrap-lto-lean --with-default-libstdcxx-abi=new --with-gcc-major-version-only --with-multilib-list=m32,m64,mx32 --with-target-system-zlib=auto --with-tune=generic --without-cuda-driver -v
Scaling Governor: intel_pstate performance (EPP: performance) - CPU Microcode: 0x21000161
Python 3.11.6
gather_data_sampling: Not affected + itlb_multihit: Not affected + l1tf: Not affected + mds: Not affected + meltdown: Not affected + mmio_stale_data: Not affected + retbleed: Not affected + spec_rstack_overflow: Not affected + spec_store_bypass: Mitigation of SSB disabled via prctl + spectre_v1: Mitigation of usercopy/swapgs barriers and __user pointer sanitization + spectre_v2: Mitigation of Enhanced / Automatic IBRS IBPB: conditional RSB filling PBRSB-eIBRS: SW sequence + srbds: Not affected + tsx_async_abort: Not affected
Два процессора Intel Xeon Platinum 8592 + работали на эталонном сервере Intel Eagle Stream reference server при использовании ОС Ubuntu 23.10 с ядром Linux 6.5. Единственное изменение, внесенное в состояние системы во время тестирования, касалось работы с активной поддержкой AVX-512 или без нее.4
miniBUDE 20210901 | Performance GFInst/s, More Is Better |
AVX-512 On | 4975.70 |
AVX-512 Off | 3112.01 |
1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm
miniBUDE 20210901 | Billion Interactions/s, More Is Better |
AVX-512 On | 199.03 |
AVX-512 Off | 124.48 |
1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm
Хотя выпуск AVX-512 начался много лет назад с большой критики по поводу мощности
и теплового воздействия, разница в производительности при использовании AVX-512
может оказаться весьма полезной, особенно на процессорах нового поколения.
Процессоры AMD Zen 4 также доказали свою полезность для AVX-512 благодаря
своему подходу.
miniBUDE 20210901 | Celsius, Fewer Is Better |
AVX-512 On | Min: 36 / Avg: 54.58 / Max: 63 |
AVX-512 Off | Min: 35 / Avg: 55.67 / Max: 63 |
miniBUDE 20210901 | Megahertz, More Is Better |
AVX-512 On | Min: 800 / Avg: 2947.32 / Max: 3907 |
AVX-512 Off | Min: 800 / Avg: 2958.53 / Max: 3904 |
Когда AVX-512 использовался для бенчмарка miniBUDE HPC, Xeon Platinum 8592 + не
показал большой разницы в пиковой частоте процессора и температуре процессора...
Это намного лучше чем у Skylake, и с очень существенными отличиями показателей температуры.
miniBUDE 20210901 | Watts, Fewer Is Better |
AVX-512 On | Min: 196.6 / Avg: 621.22 / Max: 756.81 |
AVX-512 Off | Min: 196.96 / Avg: 634.15 / Max: 758.15 |
miniBUDE 20210901 | Billion Interactions/s Per Watt, More Is Better |
AVX-512 On | 0.320 |
AVX-512 Off | 0.196 |
Энергопотребление процессора в конфигурации 2P также не сильно отличалось при
использовании AVX512, что, в свою очередь, означало значительное повышение общей
энергоэффективности.
Embree 4.3 | Frames Per Second, More Is Better |
AVX-512 On | 151.47 |
AVX-512 Off | 137.62 |
Embree 4.3 | Frames Per Second, More Is Better |
AVX-512 On | 200.90 |
AVX-512 Off | 181.83 |
Embree 4.3 | Frames Per Second, More Is Better |
AVX-512 On | 174.38 |
AVX-512 Off | 159.48 |
Embree 4.3 | Watts, Fewer Is Better |
AVX-512 On | Min: 183.04 / Avg: 330.48 / Max: 754.13 |
AVX-512 Off | Min: 183.81 / Avg: 349.88 / Max: 758.31 |
Embree 4.3 | Frames Per Second Per Watt, More Is Better |
AVX-512 On | 0.528 |
AVX-512 Off | 0.456 |
OpenVKL 2.0.0 | Items / Sec, More Is Better |
AVX-512 On | 3245 |
AVX-512 Off | 2365 |
Собственные программные пакеты Intel creator с программным пакетом oneAPI по прежнему пользуются спросом у AVX-512 и очень хорошо работают при использовании этого стиля программирования.
OpenVKL 2.0.0 | Celsius, Fewer Is Better |
AVX-512 On | Min: 35 / Avg: 56.19 / Max: 61 |
AVX-512 Off | Min: 36 / Avg: 54.42 / Max: 60 |
OpenVKL 2.0.0 | Megahertz, More Is Better |
AVX-512 On | Min: 800 / Avg: 2934.37 / Max: 3913 |
AVX-512 Off | Min: 500 / Avg: 2909.25 / Max: 3917 |
OpenVKL 2.0.0 | Watts, Fewer Is Better |
AVX-512 On | Min: 199.73 / Avg: 636.08 / Max: 754.77 |
AVX-512 Off | Min: 105.27 / Avg: 607.73 / Max: 758.79 |
OpenVKL 2.0.0 | Items / Sec Per Watt, More Is Better |
AVX-512 On | 5.102 |
AVX-512 Off | 3.892 |
При использовании AVX-512 по-прежнему не наблюдалось таких негативных
побочных эффектов, как у предыдущих поколений Intel Xeon.
OSPRay 2.12 | Items Per Second, More Is Better |
AVX-512 On | 42.65 |
AVX-512 Off | 23.41 |
OSPRay 2.12 | Items Per Second, More Is Better |
AVX-512 On | 41.61 |
AVX-512 Off | 20.94 |
OSPRay 2.12 | Items Per Second, More Is Better |
AVX-512 On | 17.04 |
AVX-512 Off | 10.57 |
AVX-512 с Emerald Rapids очень хорошо справлялся с множеством различных рабочих
нагрузок. Тепловое воздействие было небольшим, а увеличение энергопотребления процессора, как правило, было минимальным и имело смысл для повышения общей энергоэффективности.
Y-Cruncher 0.8.2 | Seconds, Fewer Is Better |
AVX-512 On | 27.06 |
AVX-512 Off | 33.68 |
Y-Cruncher 0.8.2 | Celsius, Fewer Is Better |
AVX-512 On | Min: 37 / Avg: 48.55 / Max: 55 |
AVX-512 Off | Min: 37 / Avg: 49.71 / Max: 57 |
Y-Cruncher 0.8.2 | Watts, Fewer Is Better |
AVX-512 On | Min: 144.38 / Avg: 545.54 / Max: 739.45 |
AVX-512 Off | Min: 206.72 / Avg: 566.95 / Max: 745.43 |
Y-Cruncher 0.8.2 | Megahertz, More Is Better |
AVX-512 On | Min: 800 / Avg: 2830.68 / Max: 3904 |
AVX-512 Off | Min: 800 / Avg: 2895.61 / Max: 3907 |
AVX-512 на Emerald Rapids оказался очень полезеным для программы Y-Cruncher Pi.
oneDNN 3.3 | ms, Fewer Is Better |
AVX-512 On | 1331.74 |
AVX-512 Off | 2341.14 |
1. (CXX) g++ options: -O3 -march=native -fopenmp -msse4.1 -fPIC -pie -ldl -lpthread
OSPRay Studio 0.13Camera: 1 - Resolution: 4K - Samples Per Pixel: 1 - Renderer: Path Tracer - Acceleration: CPU | ms, Fewer Is Better |
AVX-512 On | 749 |
AVX-512 Off | 893 |
OSPRay Studio 0.13 | ms, Fewer Is Better |
AVX-512 On | 886 |
AVX-512 Off | 1055 |
OSPRay Studio 0.13 | ms, Fewer Is Better |
AVX-512 On | 23825 |
AVX-512 Off | 33603 |
OSPRay Studio 0.13 | ms, Fewer Is Better |
AVX-512 On | 32723 |
AVX-512 Off | 38787 |
OSPRay Studio 0.13 | ms, Fewer Is Better |
AVX-512 On | 223 |
AVX-512 Off | 279 |
OSPRay Studio 0.13 | ms, Fewer Is Better |
AVX-512 On | 7146 |
AVX-512 Off | 8596 |
Таким образом, AVX-512 показал очень хорошие результаты работы с процессорами Intel 5th Gen Xeon Scalable "Emerald Rapids".
TensorFlow 2.12 | images/sec, More Is Better |
AVX-512 On | 49.26 |
AVX-512 On | 39.06 |
TensorFlow 2.12 | Watts, Fewer Is Better |
AVX-512 On | Min: 170.32 / Avg: 398.6 / Max: 450.75 |
AVX-512 Off | Min: 206.9 / Avg: 413.92 / Max: 462.77 |
TensorFlow 2.12 | images/sec Per Watt, More Is Better |
AVX-512 On | 0.124 |
AVX-512 Off | 0.094 |
TensorFlow 2.12 | images/sec, More Is Better |
AVX-512 On | 97.85 |
AVX-512 Off | 66.08 |
TensorFlow 2.12 | Watts, Fewer Is Better |
AVX-512 On | Min: 207.18 / Avg: 476.86 / Max: 531.76 |
AVX-512 Off | Min: 206.82 / Avg: 480.23 / Max: 511.44 |
TensorFlow 2.12 | images/sec Per Watt, More Is Better |
AVX-512 On | 0.205 |
AVX-512 Off | 0.138 |
В то время как AVX-512 изначально вызывал много критики по поводу энергопотребления и тепловых характеристик, новейшие серверные процессоры Intel (и AMD) с AVX-512 продолжают демонстрировать очень значительные достижения и без этих ранних болевых точек.
OpenVINO 2023.2.dev | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Vehicle Detection FP16 - Device: CPU | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Weld Porosity Detection FP16 - Device: CPU | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | 2822.71 |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Weld Porosity Detection FP16-INT8 - Device: CPU | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.dev | FPS, More Is Better |
AVX-512 On | -isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF |
AVX-512 Off | -pie |
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
AVX-512 и AMX продолжают оказывать большое влияние на инструментарий
искусственного интеллекта OpenVINO от Intel.
CPU Peak Freq (Highest CPU Core Frequency) Monitor | Megahertz |
AVX-512 On | Min: 800 / Avg: 2954.57 / Max: 3913 |
AVX-512 Off | Min: 500 / Avg: 3017.93 / Max: 3917 |
Если посмотреть на максимальную частоту процессора, достигаемую при постоянной загрузке в ходе 68 сравнительных тестов включения / выключения AVX-512, результаты в целом были довольно схожими. При использовании AVX-512 максимальная частота всех ядер Xeon Platinum 8592 +, как правило, составляла 2,95 ГГц по сравнению с 3,01 ГГц, когда
AVX-512 был отключен. Даже при использовании AVX-512 во всех этих тестах у процессора Xeon Platinum 5-го поколения не возникло проблем с достижением частоты turbo 3,9 ГГц.
CPU Temperature Monitor | Celsius |
AVX-512 On | Min: 30 / Avg: 54 / Max: 64 |
AVX-512 Off | Min: 29 / Avg: 53.19 / Max: 66 |
Разница в температуре ядра процессора между запуском AVX-512 и при его отключении была минимальной... Разница всего в градусе или около того, что намного лучше, чем у Intel AVX-512 предыдущих поколений.
CPU Power Consumption Monitor | Watts |
AVX-512 On | Min: 99.6 / Avg: 589.71 / Max: 894.8 |
AVX-512 Off | Min: 103.63 / Avg: 583.08 / Max: 772.16 |
Энергопотребление Xeon Platinum 8592 + с двумя процессорами в среднем было лишь немного выше при использовании AVX-512. Опять же, приятно видеть, что, в свою очередь, обеспечивает значительное повышение энергоэффективности при использовании AVX-512.
Geometric Mean Of All Test Results | Geometric Mean, More Is Better |
AVX-512 On | 31.37 |
AVX-512 Off | 15.66 |
Выводы
Полученные при тестировании результаты не сильно отличаются от предыдущих процессоров Intel Xeon Sapphire Rapids, но в любом случае приятно видеть, что они помогают количественно оценить преимущества AVX-512 в наши дни.
AVX-512 с Emerald Rapids обеспечивает значительное повышение производительности и не требует значительных затрат на электроэнергию / тепло по сравнению с гораздо более старыми серверами Intel.