Как стать автором
Обновить

Комментарии 62

А почему нет комментариев в тестах, когда mips по нулям? Не собралось? Не запустилось? Упало? Выдало странные результаты?
К сожалению — нет! Я брал данные по Байкалу из других источников (с Хабра), у меня нет в наличии данных машин (mips), но вот если бы кто-то протестировал, я бы с радостью добавил результаты.
А что означают нули в реузльтатах для некоторых процессоров? Например в LINPACK 100x100 DP для Baikail-T1
P.S. К слову, Raspberry Pi поддреживает armhf, а запускалась, судя по всему без hard float (armel обычно без hard-float). Поэтому и показывает катастрофически низкие результаты
Нет, к сожалению, у меня в наличии 1 малины, но если у вас есть, добро пожаловать PR в github.com/EntityFX/anybench
Было бы очень интересно если бы рядом с per 1 MHz была бы табличка per 1 Watt
А это как посчитать? Те же Эльбрусы МЦСТ не знает как посчитать.

во время тестов подключить к измерителю мощности. желательно на низковольтных проводах чтобы исключить кпд БП, кои для всех платформ будут несколько разные.

НЛО прилетело и опубликовало эту надпись здесь
А почему сравнение только с каким-то старым хламом? Где современные процессоры? AMD Ryzen 9 или современные Intel?
Есть такие процы? Пробенчите, plz.
Xeon Scalable 6128 — не хлам.
Ещё бы хорошо бы айфоны с айпадами потестить. А то в последнее время из каждого утюга — что они рвут х86 как тузик грелку, только непонятно, ежели они такие мощные, отчего из них суперкомпьютеры не делают или хотя бы десктопы.
Для этого С-шный код надо в приложение заворачивать и публиковать в сторе. Но в Андроид через тот же Termux с gcc или clang вполне реально.
Не надо ничего публиковать, зачем? Если вы Apple разработчик, а судя по комментарию вы им не являетсь, то должны просто собрать свое приложение и запустить на своем железе никаких сторов не надо.
Держите. Тут устаревший А9, но результат достойный.
www.7-cpu.com/cpu/Apple_A9.html
Intel Core i7 6700K
********************************************************

Dhrystone Benchmark Version 2.1 Non-optimised via C/C++ Tue May 12 17:05:07 2020

VAX MIPS rating: 2701.63

Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100
Integer Dhry2 NoOpt 8442

Numeric results were correct

Windows NT Version 6.2, build 9200,
CPU GenuineIntel, Features Code BFEBFBFF, Model Code 000506E3, 4008 MHz
Memory 2097151 KB, Free 2097151 KB

********************************************************

Dhrystone Benchmark Version 2.1 Optimised via C/C++ Tue May 12 17:05:23 2020

VAX MIPS rating: 13820.29

Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100
Integer Dhry2 Opt 10630

Numeric results were correct

Windows NT Version 6.2, build 9200,
CPU GenuineIntel, Features Code BFEBFBFF, Model Code 000506E3, 4008 MHz
Memory 2097151 KB, Free 2097151 KB


AMD Ryzen 7 3700X
********************************************************

Dhrystone Benchmark Version 2.1 Non-optimised via C/C++ Tue May 12 16:53:16 2020

VAX MIPS rating: 5420.16

Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100
Integer Dhry2 NoOpt 16938

Numeric results were correct

Windows NT Version 6.2, build 9200,
CPU AuthenticAMD, Features Code 178BFBFF, Model Code 00870F10, 3593 MHz
Memory 2097151 KB, Free 2097151 KB

********************************************************

Dhrystone Benchmark Version 2.1 Optimised via C/C++ Tue May 12 16:54:39 2020

VAX MIPS rating: 15493.76

Classic Benchmark Ratings for CPUSpeed.txt where 100 MHz Pentium = 100
Integer Dhry2 Opt 11918

Numeric results were correct

Windows NT Version 6.2, build 9200,
CPU AuthenticAMD, Features Code 178BFBFF, Model Code 00870F10, 3593 MHz
Memory 2097151 KB, Free 2097151 KB

Тест неполный без сравнения с действительно современными процессорами, типа i9-9900k или хотя бы i7-8700k, ну и что то на архитектуре zen2 типа r5 3600. А то половина протестированных процов имеют, разве что историческую ценность. Даже i7-2600 без k теперь уступает свежим процам амд начального уровня в полтора раза почти cpu.userbenchmark.com/Compare/Intel-Core-i7-2600-vs-AMD-Ryzen-3-3300X/620vs4076
Это мой рабочий комп, поэтому взял его как Baseline.

Вот вам вброс:


Huawei Server (Kunpeng 920 (armv8.4 64 core x 2 CPU)) 128 ЯДЕР:


  • Dhrystones — 21 011,57 single-thread
  • Whetstones — 4 340,75 single-thread; 544 503,55 multi-thread
  • Coremark — 19 309,99 single-thread; 2 196 796,34 multi-thread
  • Scimark 2 — Composite: 1 477,36; FFT: 1 185,13; SOR: 1 090,89 MonteCarlo:
    431,59; Sparse: 1 473,08; LU: 3 206,11
  • LINPACK 100x100 DP — 3 368,37 single-thread;
Whetstones multi-thread — экстраполяция. Не получилось собрать MP версию из репозитория автора.

Да, я взял средний коэффициент на основе других ARM.

Процессоры Эльбрус конечно очень ярко показывают свое превосходство над другими архитектурами в тесте MP MFLOPS, только вот стоит учесть, что процессоры x86 обладают векторными инструкциями. i7-2600K поддерживает AVX (8 операций за раз), i7-4700MQ поддерживает FMA (умножение и сложение одной операцией). Пара косметических правок, и эти два процесора прыгнут на первые места рейтинга. Про ARM ничего сказать не готов, но там есть NEON и другие модификации, так что их результаты тоже не релевантны.
Если что, ничего не имею против Эльбрусов (хотя и считаю VLIW морально устаревшей), просто не стоит забывать о синтетичности этих тестов.

Ну там есть момент, что у эльбруса в команды так работают, а в случае x86 только определенные. Но для того чтобы он выполнял столько команд за такт, нужно специально оптимизировать код.


Да кстати в чем VLIW морально устарел? В том что под него сложно делать оптимизирующий компилятор?

В том, что процессоры отлично справляются с шедулингом микроопераций в рантайме — не понимаю зачем это предрассчитывать, гарантированно снижая качество шедулинга, ибо бранчинг. Разве что это позволяет сэкономить энергию — но не думаю, что она существенная.

Угу а потом все это выливается в уязвимости :)))

Знаете почему во VLIW-процессорах нет уязвимостей? Потому-что процессоров нет))

Как тот не уловимый джо? :) Но вообще ребята в портировании javascript на эльбрус упоминали почему.

VLIW сам по себе термин не очень осмысленный, тут скорее важно, что EPIC.

EPIC хорош только там, где память быстрая и кэши не нужны — иначе его предсказания о том, как группировать операции, тупо не работают. Когда Intel развивал IA64, они были под влиянием великой аферы RDRAM — иного источника предположения про быструю память не было. Хотя и сейчас можно пересесть на SRAM (умножив ценник памяти этак на 12)… для обычных вычислений не окупается, хотя всякие embedded DSP на нём вполне массово строятся.

Уязвимости типа Meltdown со всеми потомками — да, проблема. Но методы лечения были понятны с самого начала, и проблема в том, чтобы выбрать из них оптимальные и отработать в железе.
умножив ценник памяти этак на 12
Экономика для инженеров
Ценообразование — удивительная штука: единственным объективным фактором, определяющим цену, является необъективное представление продавца о «приемлемом» вознаграждении за товар. Такой объективный показатель, как затраты человеко-часов, не является определяющим: например, пользователь опен-сорса получает ПО за 0 денежных едениц, не потому, что его автор потратил 0 человеко-лет; обратный пример, при котором за абсолютно примитивную фигню автор запрашивает много-много денег, встречается гораздо чаще.

Конкуренция на рынке, конечно же, способствует снижению необоснованно завышенных цен, но никакой конкуренции среди производителей чипов нет: они не сражаются за рынок, они его делят.

Победа «дешёвой» конденсаторной (Dynamic) над «дорогой» транзисторной (Static) RAM случилась примерно так: давно-давно, лет 40 назад, когда частоты CPU измерялись единицами Мегагерц, некий оптимизатор (без кавычек) решил, что тратить на 1 бит RAM лишь 1 транзистор и 1 конденсатор гораздо выгоднее, чем 6 транзисторов; необходимость перезаряжать конденсатор не могла по тем временам как-то значимо отразиться на скорости доступа к RAM или на энергопотреблении. Со временем, частота CPU возросла в 1000 раз, цена на один транзистор упала в 1000 раз, RAM стоит так мало, что каждый потребитель может купить её в большем количестве, чем ему нужно; вроде бы, пора перестать экономить транзисторы и избавиться от конденсаторов, но нет: вместо этого строится многоэтажная иерархия кэшей с суперзамороченным контролем когерентности. Анонсированный перенос многослойной DRAM под одну крышку с CPU всех проблем конденсаторной памяти не решит.
если принять версию что шесть транзисторов занимает в шесть раз больше площади кристалла, то с одной пластины выйдет не в шесть раз меньше чипов, а а еще меньше. Потому что всегда в техпроцессе и на пластине есть неоднородности и чем больше кристалл, тем выше вероятность брака и, соответственно, процент выхода годных чипов с одной пластины драматически падает с увеличением размера чипа.
Условная фотоматрица для телескопа дорогая еще по тому что брак там зашкаливает.
Помимо векторных операций, для больших тестов в MP MFLOPS существенна пропускная способность памяти, и в конечном итоге все в нее упирается. А так — да, с нормальными опциями вот результат с машины с 2 x Xeon Gold 6132 (28 ядер, 56 с гипертредингом):
  64 Bit MP SSE MFLOPS Benchmark 1, 56 Threads, Thu May 21 15:36:12 2020

  Test             4 Byte  Ops/   Repeat    Seconds   MFLOPS       First   All
                    Words  Word   Passes                         Results  Same

 Data in & out     102400     2   140000   0.082168   348945    See log     No
 Data in & out    1024000     2    14000   0.079809   359257    See log     No
 Data in & out   10240000     2     1400   0.147738   194073    See log     No

 Data in & out     102400     8   140000   0.099896  1148074    See log     No
 Data in & out    1024000     8    14000   0.083505  1373428    See log     No
 Data in & out   10240000     8     1400   0.142038   807447    See log     No

 Data in & out     102400    32   140000   0.264153  1736687    See log     No
 Data in & out    1024000    32    14000   0.212867  2155113    See log     No
 Data in & out   10240000    32     1400   0.214916  2134560    See log     No
Интересно посмотреть на свежий IBM Z в однопотоке. Сделайте тест, если есть возможность. Недавно на Z15 засветился на openbenchmarking.

У кого-то дома однозначно стоит такой.

Ну точно не дома, а на работе или взятые в тест у IBM.

Даааа, шкафик он знатный.

i5-4670, /bin/linux/amd64

Coremark O3 27666.343893
Coremark O4 27633.851468
Coremark Ofast 27546.312237
Coremark mp2 O3 52521.008403
Coremark mp2 O4 52388.020606
Coremark mp2 Ofast 53344.002134
Coremark mp4 O3 95653.733485
Coremark mp4 O4 95096.582467
Coremark mp4 Ofast 88982.815194
Coremark mp8 O3 87696.861183
Coremark mp8 O4 87857.378189
Coremark mp8 Ofast 100156.494523
Dhrystone O2 25139
Dhrystone O3 25524.37
Dhrystone Ofast 25799.14
Linpack O2 4122.88
Linpack O3 5465.6
Linpack Ofast 5491.6
Scimark O3 2338.83
Scimark O4 2333.84
Scimark Ofast 2230.48
Whetstone O2 5784.372
Whetstone O3 5573.884
Whetstone Ofast 6010.528
Whetstone mp O2 19668
Whetstone mp O3 22602
Whetstone mp Ofast 23647

Архив результатов yadi.sk/d/hJGRkX7gMOeWXw
В MP MFLOPS с SSE набрал 91 GFLOPS

64 Bit MP SSE MFLOPS Benchmark 1, 4 Threads, Wed May 13 08:03:17 2020


Test 4 Byte Ops/ Repeat Seconds MFLOPS First All
Words Word Passes Results Same


Data in & out 102400 2 10000 0.055166 37124 0.764063 Yes
Data in & out 1024000 2 1000 0.051106 40074 0.970753 Yes
Data in & out 10240000 2 100 0.411623 4975 0.997008 Yes


Data in & out 102400 8 10000 0.089668 91359 0.850936 Yes
Data in & out 1024000 8 1000 0.093701 87427 0.982338 Yes
Data in & out 10240000 8 100 0.420208 19495 0.998200 Yes


Data in & out 102400 32 10000 0.377783 86738 0.660150 Yes
Data in & out 1024000 32 1000 0.381274 85944 0.953652 Yes
Data in & out 10240000 32 100 0.460269 71193 0.995215 Yes

На меня однажды снизошло откровение: как сравнить производительность разных процессоров общего назначения, вне зависимости от архитектуры, частоты, количества ядер и года выпуска и так чтобы не ошибиться, хотя бы более чем на порядок?
Не, ну а что, маркетологи показывают нам гигагерцы и гигабайты, только почему-то ноутбук с большим числом ядер сливает декстопу и так далее.

Ответ: производительность тупо пропорциональна потребляемой мощности.

То есть если Эльбрусий жрет меньше в пять раз Интеля и в несколько раз более рапберри пай, то и производительность будет соответствующей.

Ну и потребление с ростом частоты нелинейно растёт.

Не соглашусь. Тут нужно учитывать техпроцесс и архитектуру. Старый Pentium 4 много жрет, а производительность ниже плинтуса.

А, ну да, NetBurst тот ещё пень.

НЛО прилетело и опубликовало эту надпись здесь
Тут скорей внутри семейства есть смысл сравнивать, которые на одной технологии построены. Более ограниченно — с соседями по рынку схожего поколения, там уже такой явной зависимости не будет, но явно 5 Вт против 95 Вт еще действительно будут давать разницу в производительности (ноутбучный интел против свежего амд :)
Какое то очень странное сравнение… Вот AMD быстрее потому что проц 2020 года, а вот Intel медленнее 2018 года. Капитан очевидность просто. Вы если реально хотели сравнить, взяли бы по одной модели процессора одного года выпуска и сравнили. Взяли бы и современные ARM процессоры Samsung, Apple…
НЛО прилетело и опубликовало эту надпись здесь
Если бы я был автором, я бы так и сделал, а лишь потом бы уже написал.
НЛО прилетело и опубликовало эту надпись здесь
Ни разу не видел сравнение, которое бы всем понравилось. То процессоры не те, то память разная, то ключи компилятора, то чипсет…
… то сравнивают пентиум с xeon? А может просто задуматься для чего вообще писалась статья, для чего вообще делают обычно сравнение? Очевидно же что процессоры более древние будут медленнее.
Смысл статьи теряется и становится абсурдным.
В статье написано, что в отдельных задачах более старые процессоры шустрее более новых другой архитектуры. А ещё интересно: а на сколько в попугаях шустрее более новые, имеет ли смысл апгрейдиться?

Ну если есть такие машины, сравните и мне вышлите результаты, я обязательно добавлю топовые процы.

Столько времени прошло, а Дристун не сдает позиции ))

ТС, напишите в статье честно о том, почему нет данных по SPEC CPU )))
Дисклеймер: многие производители позоhных ЦПУ предпочтут Гикбенч с Дристуном два раза, но только не SPEC CPU, и упаси Боже не fp.

Он простой как валенок и такой странный.


Вот купят и дадут SPEC CPU, тогда и замерим, то что было, то и прибыло в сравнение. Да и вообще я это просто для себя ради интереса сделал и решил опубликовать чтобы результаты где-то были.

Да он не странный, он просто приближенный к реальным применениям))

316 GFlops — на SSE (не AVX) для 16ти потоков, крутой результат

## Потестил на E8C в нативе и режиме трансляции x86_64:
Таблица
| Platform | Test | Benchmark e2k | Benchmark amd64 | % |
|----------|---------------|---------------|-----------------|----------|
| E8C-SWTX | Dhrystones | 5 865,19 | 7 617,93 | 129,88 |
| E8C-SWTX | Whetstones | 1 517,62 | 1 582,78 | 104,29 |
| E8C-SWTX | Whetstones MP | 12 980,00 | 10 967,00 | 84,49 |
| E8C-SWTX | LINPACK | 1 075,27 | 934,11 | 86,87 |
| E8C-SWTX | MPMFLOPS | 160 334,00 | 75 685,00 | 47,20 |
| E8C-SWTX | Coremark | 3711 | 6 163,50 | 166,09 |
| E8C-SWTX | Coremark MP | 28 846,15 | 49 025,07 | 169,95 |
| E8C-SWTX | Scimark 2 | 511,43 | 412,79 | 80,71 |
| E8C-SWTX | | | | 100,84 |
| E8C-SWTX | Whetstones JS | 30 | 417,15 | 1 390,50 |

x86-64 (ia32/x86/i386/amd64/EM64T/Intel/AMD)

это две разных, но связанных инженерно, исторически и коммерчески архитектуры:

  • x86/i386/ia32 от Intel (позволил себе поменять порядок в пользу хронологического, возможно ошибочного)

  • AMD64/EM64T от AMD

у которых есть общее обобщающее название, и это не x86-64, а просто x86.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий