EntityFX 12 мая 2020 в 15:01

Большое тестирование процессоров различных архитектур

19 мин

36K

Блог компании ГК ICLВысокая производительность*Компьютерное железоПроцессоры

Из песочницы

+42

Комментарии 62

INSTE 12 мая 2020 в 15:31

А почему нет комментариев в тестах, когда mips по нулям? Не собралось? Не запустилось? Упало? Выдало странные результаты?

EntityFX 12 мая 2020 в 16:25

К сожалению — нет! Я брал данные по Байкалу из других источников (с Хабра), у меня нет в наличии данных машин (mips), но вот если бы кто-то протестировал, я бы с радостью добавил результаты.

sparhawk 12 мая 2020 в 15:31

А что означают нули в реузльтатах для некоторых процессоров? Например в LINPACK 100x100 DP для Baikail-T1
P.S. К слову, Raspberry Pi поддреживает armhf, а запускалась, судя по всему без hard float (armel обычно без hard-float). Поэтому и показывает катастрофически низкие результаты

EntityFX 12 мая 2020 в 16:28

Нет, к сожалению, у меня в наличии 1 малины, но если у вас есть, добро пожаловать PR в github.com/EntityFX/anybench

madf 13 мая 2020 в 17:33

Мало конечно, что заработало, но если нужно, прогнал: rdvv.ru/upload/RaspberryPi_B_results.zip

beho1der 12 мая 2020 в 15:45

Очень объемно и полезно!

ChePeter 12 мая 2020 в 16:09

Было бы очень интересно если бы рядом с per 1 MHz была бы табличка per 1 Watt

EntityFX 12 мая 2020 в 16:27

А это как посчитать? Те же Эльбрусы МЦСТ не знает как посчитать.

yalex1442 12 мая 2020 в 16:34

+еще нужно наличие/отсутствие GPU учесть

pfg21 2 июн 2022 в 20:57

во время тестов подключить к измерителю мощности. желательно на низковольтных проводах чтобы исключить кпд БП, кои для всех платформ будут несколько разные.

НЛО прилетело и опубликовало эту надпись здесь

Dark_Reaper 12 мая 2020 в 16:40

А почему сравнение только с каким-то старым хламом? Где современные процессоры? AMD Ryzen 9 или современные Intel?

-2

EntityFX 12 мая 2020 в 16:41

Есть такие процы? Пробенчите, plz.

Coocos 12 мая 2020 в 23:06

Xeon Scalable 6128 — не хлам.

wormball 12 мая 2020 в 16:48

Ещё бы хорошо бы айфоны с айпадами потестить. А то в последнее время из каждого утюга — что они рвут х86 как тузик грелку, только непонятно, ежели они такие мощные, отчего из них суперкомпьютеры не делают или хотя бы десктопы.

EntityFX 12 мая 2020 в 16:52

Для этого С-шный код надо в приложение заворачивать и публиковать в сторе. Но в Андроид через тот же Termux с gcc или clang вполне реально.

svanichkin 13 мая 2020 в 16:26

Не надо ничего публиковать, зачем? Если вы Apple разработчик, а судя по комментарию вы им не являетсь, то должны просто собрать свое приложение и запустить на своем железе никаких сторов не надо.

Coocos 12 мая 2020 в 23:16

Держите. Тут устаревший А9, но результат достойный.
www.7-cpu.com/cpu/Apple_A9.html

IDDQDesnik 12 мая 2020 в 17:08

Intel Core i7 6700K

 ********************************************************



Dhrystone Benchmark Version 2.1 Non-optimised via C/C++ Tue May 12 17:05:07 2020



VAX MIPS rating: 2701.63



Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100

 Integer Dhry2 NoOpt 8442



Numeric results were correct



Windows NT Version 6.2, build 9200, 

 CPU GenuineIntel, Features Code BFEBFBFF, Model Code 000506E3, 4008 MHz

 Memory 2097151 KB, Free 2097151 KB



********************************************************



Dhrystone Benchmark Version 2.1 Optimised via C/C++ Tue May 12 17:05:23 2020



VAX MIPS rating: 13820.29



Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100

 Integer Dhry2 Opt 10630



Numeric results were correct



Windows NT Version 6.2, build 9200, 

 CPU GenuineIntel, Features Code BFEBFBFF, Model Code 000506E3, 4008 MHz

 Memory 2097151 KB, Free 2097151 KB

AMD Ryzen 7 3700X

 ********************************************************



Dhrystone Benchmark Version 2.1 Non-optimised via C/C++ Tue May 12 16:53:16 2020



VAX MIPS rating: 5420.16



Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100

 Integer Dhry2 NoOpt 16938



Numeric results were correct



Windows NT Version 6.2, build 9200, 

 CPU AuthenticAMD, Features Code 178BFBFF, Model Code 00870F10, 3593 MHz

 Memory 2097151 KB, Free 2097151 KB



********************************************************



Dhrystone Benchmark Version 2.1 Optimised via C/C++ Tue May 12 16:54:39 2020



VAX MIPS rating: 15493.76



Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100

 Integer Dhry2 Opt 11918



Numeric results were correct



Windows NT Version 6.2, build 9200, 

 CPU AuthenticAMD, Features Code 178BFBFF, Model Code 00870F10, 3593 MHz

 Memory 2097151 KB, Free 2097151 KB

YuraLia 12 мая 2020 в 17:24

Тест неполный без сравнения с действительно современными процессорами, типа i9-9900k или хотя бы i7-8700k, ну и что то на архитектуре zen2 типа r5 3600. А то половина протестированных процов имеют, разве что историческую ценность. Даже i7-2600 без k теперь уступает свежим процам амд начального уровня в полтора раза почти cpu.userbenchmark.com/Compare/Intel-Core-i7-2600-vs-AMD-Ryzen-3-3300X/620vs4076

EntityFX 12 мая 2020 в 17:33

Это мой рабочий комп, поэтому взял его как Baseline.

EntityFX 12 мая 2020 в 17:38

Вот вам вброс:

Huawei Server (Kunpeng 920 (armv8.4 64 core x 2 CPU)) 128 ЯДЕР:

Dhrystones — 21 011,57 single-thread
Whetstones — 4 340,75 single-thread; 544 503,55 multi-thread
Coremark — 19 309,99 single-thread; 2 196 796,34 multi-thread
Scimark 2 — Composite: 1 477,36; FFT: 1 185,13; SOR: 1 090,89 MonteCarlo:
431,59; Sparse: 1 473,08; LU: 3 206,11
LINPACK 100x100 DP — 3 368,37 single-thread;

Coocos 12 мая 2020 в 23:00

Whetstones multi-thread — экстраполяция. Не получилось собрать MP версию из репозитория автора.

EntityFX 13 мая 2020 в 09:56

Да, я взял средний коэффициент на основе других ARM.

picul 12 мая 2020 в 18:08

Процессоры Эльбрус конечно очень ярко показывают свое превосходство над другими архитектурами в тесте MP MFLOPS, только вот стоит учесть, что процессоры x86 обладают векторными инструкциями. i7-2600K поддерживает AVX (8 операций за раз), i7-4700MQ поддерживает FMA (умножение и сложение одной операцией). Пара косметических правок, и эти два процесора прыгнут на первые места рейтинга. Про ARM ничего сказать не готов, но там есть NEON и другие модификации, так что их результаты тоже не релевантны.
Если что, ничего не имею против Эльбрусов (хотя и считаю VLIW морально устаревшей), просто не стоит забывать о синтетичности этих тестов.

norguhtar 12 мая 2020 в 18:59

Ну там есть момент, что у эльбруса в команды так работают, а в случае x86 только определенные. Но для того чтобы он выполнял столько команд за такт, нужно специально оптимизировать код.

Да кстати в чем VLIW морально устарел? В том что под него сложно делать оптимизирующий компилятор?

picul 12 мая 2020 в 19:43

В том, что процессоры отлично справляются с шедулингом микроопераций в рантайме — не понимаю зачем это предрассчитывать, гарантированно снижая качество шедулинга, ибо бранчинг. Разве что это позволяет сэкономить энергию — но не думаю, что она существенная.

norguhtar 12 мая 2020 в 19:45

Угу а потом все это выливается в уязвимости :)))

picul 12 мая 2020 в 19:58

Знаете почему во VLIW-процессорах нет уязвимостей? Потому-что процессоров нет))

norguhtar 12 мая 2020 в 19:59

Как тот не уловимый джо? :) Но вообще ребята в портировании javascript на эльбрус упоминали почему.

netch80 13 мая 2020 в 09:27

VLIW сам по себе термин не очень осмысленный, тут скорее важно, что EPIC.

EPIC хорош только там, где память быстрая и кэши не нужны — иначе его предсказания о том, как группировать операции, тупо не работают. Когда Intel развивал IA64, они были под влиянием великой аферы RDRAM — иного источника предположения про быструю память не было. Хотя и сейчас можно пересесть на SRAM (умножив ценник памяти этак на 12)… для обычных вычислений не окупается, хотя всякие embedded DSP на нём вполне массово строятся.

Уязвимости типа Meltdown со всеми потомками — да, проблема. Но методы лечения были понятны с самого начала, и проблема в том, чтобы выбрать из них оптимальные и отработать в железе.

Alpha_Ceph 14 мая 2020 в 19:30

умножив ценник памяти этак на 12

Экономика для инженеров

Ценообразование — удивительная штука: единственным объективным фактором, определяющим цену, является необъективное представление продавца о «приемлемом» вознаграждении за товар. Такой объективный показатель, как затраты человеко-часов, не является определяющим: например, пользователь опен-сорса получает ПО за 0 денежных едениц, не потому, что его автор потратил 0 человеко-лет; обратный пример, при котором за абсолютно примитивную фигню автор запрашивает много-много денег, встречается гораздо чаще.

Конкуренция на рынке, конечно же, способствует снижению необоснованно завышенных цен, но никакой конкуренции среди производителей чипов нет: они не сражаются за рынок, они его делят.

Победа «дешёвой» конденсаторной (Dynamic) над «дорогой» транзисторной (Static) RAM случилась примерно так: давно-давно, лет 40 назад, когда частоты CPU измерялись единицами Мегагерц, некий оптимизатор (без кавычек) решил, что тратить на 1 бит RAM лишь 1 транзистор и 1 конденсатор гораздо выгоднее, чем 6 транзисторов; необходимость перезаряжать конденсатор не могла по тем временам как-то значимо отразиться на скорости доступа к RAM или на энергопотреблении. Со временем, частота CPU возросла в 1000 раз, цена на один транзистор упала в 1000 раз, RAM стоит так мало, что каждый потребитель может купить её в большем количестве, чем ему нужно; вроде бы, пора перестать экономить транзисторы и избавиться от конденсаторов, но нет: вместо этого строится многоэтажная иерархия кэшей с суперзамороченным контролем когерентности. Анонсированный перенос многослойной DRAM под одну крышку с CPU всех проблем конденсаторной памяти не решит.

le2 20 мая 2020 в 15:32

если принять версию что шесть транзисторов занимает в шесть раз больше площади кристалла, то с одной пластины выйдет не в шесть раз меньше чипов, а а еще меньше. Потому что всегда в техпроцессе и на пластине есть неоднородности и чем больше кристалл, тем выше вероятность брака и, соответственно, процент выхода годных чипов с одной пластины драматически падает с увеличением размера чипа.
Условная фотоматрица для телескопа дорогая еще по тому что брак там зашкаливает.

perfhunter 29 мая 2020 в 11:37

Помимо векторных операций, для больших тестов в MP MFLOPS существенна пропускная способность памяти, и в конечном итоге все в нее упирается. А так — да, с нормальными опциями вот результат с машины с 2 x Xeon Gold 6132 (28 ядер, 56 с гипертредингом):

  64 Bit MP SSE MFLOPS Benchmark 1, 56 Threads, Thu May 21 15:36:12 2020

  Test             4 Byte  Ops/   Repeat    Seconds   MFLOPS       First   All
                    Words  Word   Passes                         Results  Same

 Data in & out     102400     2   140000   0.082168   348945    See log     No
 Data in & out    1024000     2    14000   0.079809   359257    See log     No
 Data in & out   10240000     2     1400   0.147738   194073    See log     No

 Data in & out     102400     8   140000   0.099896  1148074    See log     No
 Data in & out    1024000     8    14000   0.083505  1373428    See log     No
 Data in & out   10240000     8     1400   0.142038   807447    See log     No

 Data in & out     102400    32   140000   0.264153  1736687    See log     No
 Data in & out    1024000    32    14000   0.212867  2155113    See log     No
 Data in & out   10240000    32     1400   0.214916  2134560    See log     No

Coocos 13 мая 2020 в 00:00

Интересно посмотреть на свежий IBM Z в однопотоке. Сделайте тест, если есть возможность. Недавно на Z15 засветился на openbenchmarking.

EntityFX 13 мая 2020 в 09:58

У кого-то дома однозначно стоит такой.

Coocos 13 мая 2020 в 10:09

Ну точно не дома, а на работе или взятые в тест у IBM.

EntityFX 13 мая 2020 в 10:46

Даааа, шкафик он знатный.

Kazancev 13 мая 2020 в 06:29

i5-4670, /bin/linux/amd64

Coremark O3 27666.343893
Coremark O4 27633.851468
Coremark Ofast 27546.312237
Coremark mp2 O3 52521.008403
Coremark mp2 O4 52388.020606
Coremark mp2 Ofast 53344.002134
Coremark mp4 O3 95653.733485
Coremark mp4 O4 95096.582467
Coremark mp4 Ofast 88982.815194
Coremark mp8 O3 87696.861183
Coremark mp8 O4 87857.378189
Coremark mp8 Ofast 100156.494523
Dhrystone O2 25139
Dhrystone O3 25524.37
Dhrystone Ofast 25799.14
Linpack O2 4122.88
Linpack O3 5465.6
Linpack Ofast 5491.6
Scimark O3 2338.83
Scimark O4 2333.84
Scimark Ofast 2230.48
Whetstone O2 5784.372
Whetstone O3 5573.884
Whetstone Ofast 6010.528
Whetstone mp O2 19668
Whetstone mp O3 22602
Whetstone mp Ofast 23647

Архив результатов yadi.sk/d/hJGRkX7gMOeWXw

EntityFX 13 мая 2020 в 10:05

В MP MFLOPS с SSE набрал 91 GFLOPS

64 Bit MP SSE MFLOPS Benchmark 1, 4 Threads, Wed May 13 08:03:17 2020

Test 4 Byte Ops/ Repeat Seconds MFLOPS First All
Words Word Passes Results Same

Data in & out 102400 2 10000 0.055166 37124 0.764063 Yes
Data in & out 1024000 2 1000 0.051106 40074 0.970753 Yes
Data in & out 10240000 2 100 0.411623 4975 0.997008 Yes

Data in & out 102400 8 10000 0.089668 91359 0.850936 Yes
Data in & out 1024000 8 1000 0.093701 87427 0.982338 Yes
Data in & out 10240000 8 100 0.420208 19495 0.998200 Yes

Data in & out 102400 32 10000 0.377783 86738 0.660150 Yes
Data in & out 1024000 32 1000 0.381274 85944 0.953652 Yes
Data in & out 10240000 32 100 0.460269 71193 0.995215 Yes

EntityFX 13 мая 2020 в 10:45

Выложил ваш результат: https://github.com/EntityFX/anybench/tree/master/results/intel-core-i5-4670

le2 13 мая 2020 в 09:58

На меня однажды снизошло откровение: как сравнить производительность разных процессоров общего назначения, вне зависимости от архитектуры, частоты, количества ядер и года выпуска и так чтобы не ошибиться, хотя бы более чем на порядок?
Не, ну а что, маркетологи показывают нам гигагерцы и гигабайты, только почему-то ноутбук с большим числом ядер сливает декстопу и так далее.

Ответ: производительность тупо пропорциональна потребляемой мощности.

То есть если Эльбрусий жрет меньше в пять раз Интеля и в несколько раз более рапберри пай, то и производительность будет соответствующей.

-1

EntityFX 13 мая 2020 в 09:59

Ну и потребление с ростом частоты нелинейно растёт.

Coocos 13 мая 2020 в 10:19

Не соглашусь. Тут нужно учитывать техпроцесс и архитектуру. Старый Pentium 4 много жрет, а производительность ниже плинтуса.

EntityFX 13 мая 2020 в 10:45

А, ну да, NetBurst тот ещё пень.

НЛО прилетело и опубликовало эту надпись здесь

remzalp 20 мая 2020 в 15:08

Тут скорей внутри семейства есть смысл сравнивать, которые на одной технологии построены. Более ограниченно — с соседями по рынку схожего поколения, там уже такой явной зависимости не будет, но явно 5 Вт против 95 Вт еще действительно будут давать разницу в производительности (ноутбучный интел против свежего амд :)

svanichkin 13 мая 2020 в 16:23

Какое то очень странное сравнение… Вот AMD быстрее потому что проц 2020 года, а вот Intel медленнее 2018 года. Капитан очевидность просто. Вы если реально хотели сравнить, взяли бы по одной модели процессора одного года выпуска и сравнили. Взяли бы и современные ARM процессоры Samsung, Apple…

-2

НЛО прилетело и опубликовало эту надпись здесь

svanichkin 13 мая 2020 в 21:45

Если бы я был автором, я бы так и сделал, а лишь потом бы уже написал.

-2

НЛО прилетело и опубликовало эту надпись здесь

Gryphon88 13 мая 2020 в 21:48

Ни разу не видел сравнение, которое бы всем понравилось. То процессоры не те, то память разная, то ключи компилятора, то чипсет…

svanichkin 13 мая 2020 в 21:52

… то сравнивают пентиум с xeon? А может просто задуматься для чего вообще писалась статья, для чего вообще делают обычно сравнение? Очевидно же что процессоры более древние будут медленнее.
Смысл статьи теряется и становится абсурдным.

-2

Gryphon88 13 мая 2020 в 22:00

В статье написано, что в отдельных задачах более старые процессоры шустрее более новых другой архитектуры. А ещё интересно: а на сколько в попугаях шустрее более новые, имеет ли смысл апгрейдиться?

EntityFX 14 мая 2020 в 11:50

Ну если есть такие машины, сравните и мне вышлите результаты, я обязательно добавлю топовые процы.

hhba 13 мая 2020 в 23:35

Столько времени прошло, а Дристун не сдает позиции ))

ТС, напишите в статье честно о том, почему нет данных по SPEC CPU )))
Дисклеймер: многие производители позоhных ЦПУ предпочтут Гикбенч с Дристуном два раза, но только не SPEC CPU, и упаси Боже не fp.

EntityFX 14 мая 2020 в 11:53

Он простой как валенок и такой странный.

Вот купят и дадут SPEC CPU, тогда и замерим, то что было, то и прибыло в сравнение. Да и вообще я это просто для себя ради интереса сделал и решил опубликовать чтобы результаты где-то были.

hhba 14 мая 2020 в 11:55

Да он не странный, он просто приближенный к реальным применениям))

Kazancev 15 мая 2020 в 14:52

Результаты для Ryzen 1800x в стоке без разгона CPU и RAM, в одноканале.
https://yadi.sk/d/eNpK7iVEeZkkWQ

EntityFX 15 мая 2020 в 18:08

316 GFlops — на SSE (не AVX) для 16ти потоков, крутой результат

EntityFX 18 мая 2020 в 13:17

## Потестил на E8C в нативе и режиме трансляции x86_64:

Таблица

| Platform | Test | Benchmark e2k | Benchmark amd64 | % |
|----------|---------------|---------------|-----------------|----------|
| E8C-SWTX | Dhrystones | 5 865,19 | 7 617,93 | 129,88 |
| E8C-SWTX | Whetstones | 1 517,62 | 1 582,78 | 104,29 |
| E8C-SWTX | Whetstones MP | 12 980,00 | 10 967,00 | 84,49 |
| E8C-SWTX | LINPACK | 1 075,27 | 934,11 | 86,87 |
| E8C-SWTX | MPMFLOPS | 160 334,00 | 75 685,00 | 47,20 |
| E8C-SWTX | Coremark | 3711 | 6 163,50 | 166,09 |
| E8C-SWTX | Coremark MP | 28 846,15 | 49 025,07 | 169,95 |
| E8C-SWTX | Scimark 2 | 511,43 | 412,79 | 80,71 |
| E8C-SWTX | | | | 100,84 |
| E8C-SWTX | Whetstones JS | 30 | 417,15 | 1 390,50 |

maxzhurkin 21 мая 2021 в 19:55

x86-64 (ia32/x86/i386/amd64/EM64T/Intel/AMD)

это две разных, но связанных инженерно, исторически и коммерчески архитектуры:

x86/i386/ia32 от Intel (позволил себе поменять порядок в пользу хронологического, возможно ошибочного)
AMD64/EM64T от AMD

у которых есть общее обобщающее название, и это не x86-64, а просто x86.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий