Сравниваем Huawei ExaGear с Apple Rosetta 2 и решением от Microsoft / Хабр

10 ноября 2020 года произошло во многом эпохальное событие в индустрии микропроцессоров - компания Apple презентовала новый Mac Mini, главной фишкой которого являлся чип собственной разработки Apple M1. Данный процессор, без преувеличения, является знаковым достижением для экосистемы ARM - наконец-то был сделан чип, обошедший конкурентов из Intel в той нише, где архитектура x86 доминировала десятилетия.

Но для нас главным интересом является не сам процессор M1, а технология двоичной трансляции Rosetta 2, разработанная с целью запуска legacy x86 кода, не успевшего переехать на архитектуру ARM. Компания Apple имеет большой опыт в разработке решений по двоичной трансляции и является признанным лидером в данной области. Первая версия двоичного транслятора Rosetta появилась в 2006-ом году, когда помогла компании Apple совершить переход с архитектуры PowerPC на x86. И хотя в этот раз гостевая и целевая платформы отличались от тех, которые были в 2006-ом, очевидно, что весь опыт, накопленный инженерами Apple за эти годы, был учтён и вложен в следующую версию Rosetta 2. Тем интреснее было сравнить решение от Apple с аналогичным продуктом Huawei ExaGear (ведущего свою родословную от Eltechs ExaGear), разрабатываемого нашей командой. Заодно, мы оценили производительность двоичной трансляции из x86 в ARM от компании Microsoft (входящей в состав MS Windows 10 для Arm устройств) на лэптопе Huawei MateBook E. На текущий момент, это все известные нам решения по двоичной трансляции из X86 в ARM, доступные на широком рынке.

Т.к. все решения изначально созданы под разные операционные системы (Huawei Exagear – под Linux, Apple Rosetta 2 - под MacOS, Microsoft binary translator – под MS Windows), возникла необходимость найти корректный метод сравнения, т.к. напрямую провести запуски было невозможно. Мы приняли за основу метрику «эффективности трансляции» - это отношение показателя времени исполнения бенчмарка в нативном для платформы режиме (ARM в нашем случае) ко времени запуска этого же бенчмарка в x86-кодах запущенного под двоичным транслятором(или же обратная величина в случае измерения попугаев «больше-лучше»). Иными словами, мы сравнивали то, сколько процентов от нативного исполнения достигает бенчмарк в режиме двоичной трансляции. Такой же метрикой пользовались эксперты с сайта Anandtech, выпустившие обзорную статью про Apple M1, где также были приведены цифры производительности Rosetta 2.

Все замеры проведены в однопоточном режиме, т.к. для нас было важно замерить именно качество оттранслированного кода, насколько он уступает нативному.

Huawei ExaGear vs Apple Rosetta 2

Итак, начнём сравнение Huawei ExaGear с Apple Rosetta 2 на Apple MacBook Pro (M1). Тесты под Rosetta 2 запускаются в родной MacOS BigSur 11.1, тесты под ExaGear - в виртуалке с Linux kernel 5.4.1.

Geekbench 5.4.1 (чем выше – тем лучше):

Bench name	ARM64 MacOS	Rosetta 2 (x86)	Rosetta 2 efficiency	ARM64 Linux (VM)	Exagear (x86)	Exagear efficiency
AES-XTS	2769	1720	62.1%	2703	1823	67.4%
Text Compression	1502	1319	87.8%	1438	1349	93.8%
Image Compression	1356	1056	77.9%	1335	1230	92.1%
Navigation	1716	1678	97.8%	1717	1605	93.5%
HTML5	1642	1066	64.9%	1717	1302	75.8%
SQLite	1400	1000	71.4%	1328	1229	92.6%
PDF Rendering	1600	1324	82.8%	1738	1464	84.2%
Text Rendering	1778	1290	72.6%	1726	1480	85.8%
Clang	1661	1244	74.9%	1738	1335	76.8%
Camera	1612	1278	79.3%	1464	1148	78.4%
N-Body Physics	1789	1503	84.0%	1830	1616	88.3%
Rigid Body Physics	1772	1352	76.3%	1690	1176	69.6%
Gaussian Blur	1407	1251	88.9%	1435	1297	90.4%
Face Detection	2215	1500	67.7%	2216	1632	73.7%
Horizon Detection	1964	1268	64.6%	1879	1386	73.8%
Image Inpainting	3214	2893	90.0%	3345	2903	86.8%
HDR	2486	2250	90.5%	2761	2690	97.4%
Ray Tracing	2553	1970	77.2%	2055	1992	96.9%
Structure from Motion	1406	1068	76.0%	1507	1150	76.3%
Speech Recognition	1601	1371	85.6%	1485	1355	91.3%
Machine Learning	1243	713	57.4%	1229	727	59.2%
GeoMean			76.9%			82.4%

Как видно, средняя производительность Huawei ExaGear ( 82.4%) обгоняет Apple Rosetta 2 (76.9%), причём проигрывает ExaGear только на 4-х тестах из 21-го – Navigation, Camera, Rigid Body Physics и Image Inpainting.

Тут надо сделать небольшое, но достаточно интересное отступление. Дело в том, что при более детальном изучении процессора M1 можно обнаружить, что несмотря на то, что он официально вышел только в ноябре 2020-го года (а значит его система команд была зафиксирована задолго до этого момента, явно не позднее 2019-го года), он содержит в себе набор расширений архитектуры ArmV8.7, которая официально была принята и опубликована только осенью 2020-го года. Причём существенная часть этого расширения является ничем иным, как аппаратной поддержкой двоичной трансляции, призванной упростить трансляцию некоторых операций из архитектуры x86. Т.е. компания Apple разрабатывала процессор с расширением, которое на тот момент не было официальным. Более того, при внимательно ретроспективном взгляде на более ранние расширения видно, что ArmV8.5 и ArmV8.4 также включали в себя операции для поддержки двоичной трансляции. Таким образом очевидно, что компания Apple достаточно давно в кооперации с Arm Ltd. работало над аппартной поддержкой своего решения. Apple Rosetta 2 использует все данные возможности и поэтому имеет определённое преимущество, по сравнению с Huawei Exagear, который данные расширения не использует.

Именно поэтому данные 4 теста Apple Rosetta 2 исполняет эффективнее. Но тем не менее, на остальных тестах, даже с учётом имеющегося гандикапа у решения от Apple, Huawei ExaGear показывает более высокие результаты.

Также стоит отметить, что цифры производительности в нативном Arm-режиме на MacOS и Linux в целом достаточно близки, что подтверждает общую корректность нашего подхода по сравнению производительности двоичных трансляторов.

Далее, сравним запуски на SpecCPU2006 и SpecCPU2017. Измеряется время работы каждого подтеста в секундах. Исключены бенчмарки, написанные на Fortran.

SpecCPU2006 (секунды)

Компилятор: clang 11.0 -O3 –flto

INT tests	ARM64 MacOS	Rosetta 2 (x86)	Rosetta 2 efficiency	ARM64 Linux (VM)	ExaGear (x86)	ExaGear efficiency
400.perlbench	157	218	72.0%	145	166	87.3%
401.bzip2	248	326	76.1%	247	282	87.6%
429.mcf	106	118	89.8%	129	123	104.9%
445.gobmk	178	198	89.9%	183	193	94.8%
456.hmmer	159	170	93.5%	164	142	115.5%
458.sjeng	246	300	82.0%	253	281	90.0%
462.libquantum	94	107	87.9%	101	128	78.9%
464.h264ref	203	328	61.9%	201	271	74.2%
471.omnetpp	146	179	81.6%	173	193	89.6%
473.astar	184	203	90.6%	196	201	97.5%
483.xalancbmk	82	104	78.8%	96	112	85.7%
GeoMean Int			81.7%			90.8%

FP tests
433.milc	95	130	73.1%	98	127	77.2%
444.namd	139	172	80.8%	139	164	84.8%
447.dealII	108	117	92.3%	115	151	76.2%
450.soplex	91	104	87.5%	95	107	88.8%
453.povray	60	78	76.9%	52	65	80.0%
470.lbm	113	119	95.0%	114	99	115.2%
482.sphinx3	194	207	93.7%	195	215	90.7%
GeoMean FP			85.2%			86.7%

SpecCPU2017 (секунды)

Компилятор: clang 11.0 -O3 –flto

INT tests	ARM64 MacOS	Rosetta 2 (x86)	Rosetta 2 efficiency	ARM64 Linux(VM)	ExaGear (x86)	ExaGear efficiency
500.perlbench_r	216	282	76.6%	210	241	87.1%
502.gcc_r	125	164	76.2%	125	153	81.7%
505.mcf_r	202	235	86.0%	217	231	93.9%
520.omnetpp_r	277	360	76.9%	295	324	91.0%
523.xalancbmk_r	166	204	81.4%	189	197	95.9%
525.x264_r	154	176	87.5%	161	189	85.2%
531.deepsjeng_r	175	221	79.2%	190	197	96.4%
541.leela_r	282	294	95.9%	285	277	102.9%
557.xz_r	275	319	86.2%	307	335	91.6%
GeoMean Int			82.7%			91.6%

FP tests
508.namd_r	111	134	82.8%	111	133	83.5%
510.parest_r	308	331	93.1%	304	336	90.5%
511.povray_r	211	320	65.9%	196	253	77.5%
519.lbm_r	121	153	79.1%	127	142	89.4%
526.blender_r	149	179	83.2%	163	175	93.1%
538.imagick_r	210	345	60.9%	227	271	83.8%
544.nab_r	156	186	83.9%	150	174	86.2%
GeoMean FP			77.7%			86.1%

Как видим, на SpecCPU2006/2017 ситуация аналогична тестам на Geekbench – в среднем Huawei ExaGear обыгрывает Apple Rosetta 2, хотя на отдельных подтестах ситуация обратная.

Huawei ExaGear vs Microsoft binary translator

Теперь сравним производительность Huawei ExaGear с двоичным транслятором от Microsoft на Huawei MateBook E.

ExaGear запускается в окружении WSL, транслятор от Microsoft в родной MS Windows 10.

В запусках ExaGear в окружении WSL обнаружилась проблема, что WSL не предоставляет используемые нами для профилирования таймеры, из-за чего не включается режим дооптимизации кода и ExaGear не демонстрирует максимальные цифры производительности. Потери скорости в таком случае можно оценить в 10-20% в зависимости от бенчмарка. Тем не менее, с учётом вышеприведённых результатов сравнения с Apple Rosetta 2, общая картина будет ясна.

Geekbench 5.4.1 (чем выше – тем лучше):

Bench name	ARM64 Windows	MS BT (x86)	MS BT efficiency	ARM64 WSL	ExaGear (x86)	ExaGear efficiency
AES-XTS	872	437	50.1%	892	437	49.0%
Text Compression	514	381	74.1%	518	451	87.1%
Image Compression	577	328	56.8%	606	433	71.5%
Navigation	402	393	97.8%	522	502	96.2%
HTML5	517	224	43.3%	522	371	71.1%
SQLite	534	240	44.9%	565	412	72.9%
PDF Rendering	515	253	49.1%	574	462	80.5%
Text Rendering	530	264	49.8%	544	430	79.0%
Clang	485	187	38.6%	601	405	67.4%
Camera	437	221	50.6%	479	308	64.3%
N-Body Physics	390	253	64.9%	390	317	81.3%
Rigid Body Physics	634	299	47.2%	717	485	67.6%
Gaussian Blur	279	217	77.8%	282	238	84.4%
Face Detection	598	301	50.3%	657	387	58.9%
Horizon Detection	484	235	48.6%	542	331	61.1%
Image Inpainting	580	419	72.2%	775	504	65.0%
HDR	637	481	75.5%	1035	843	81.4%
Ray Tracing	758	296	39.1%	762	513	67.3%
Structure from Motion	379	203	53.6%	457	289	63.2%
Speech Recognition	346	283	81.8%	355	312	87.9%
Machine Learning	252	108	42.9%	240	128	53.3%
GeoMean			55.6%			70.9%

SpecCPU2017 (секунды)

Компилятор: clang 11.0 -O3 -flto

INT tests	ARM64 Windows	MS BT (x86)	MS BT efficiency	ARM64 WSL	ExaGear (x86)	ExaGear efficiency
500.perlbench_r	824	1526	54.0%	800	1042	76.8%
502.gcc_r	716	1119	64.0%	690	820	84.1%
505.mcf_r	781	1069	73.1%	792	992	79.8%
520.omnetpp_r	1280	2025	63.2%	1186	1414	83.9%
525.x264_r	460	771	59.7%	481	638	75.4%
531.deepsjeng_r	507	711	71.3%	524	629	83.3%
541.leela_r	564	897	62.9%	547	652	83.9%
557.xz_r	733	938	78.1%	733	827	88.6%
GeoMean Int			65.4%			81.9%

FP tests
508.namd_r	423	698	60.6%	429	619	69.3%
510.parest_r	1006	1274	79.0%	970	1179	82.3%
511.povray_r	808	1540	52.5%	761	1027	74.1%
519.lbm_r	428	767	55.8%	429	549	78.1%
526.blender_r	474	688	68.9%	484	716	67.6%
538.imagick_r	560	1075	52.1%	566	847	66.8%
544.nab_r	522	1050	49.7%	517	617	83.8%
GeoMean FP			59.0%			74.3%

Сборка SpecCPU2006 под Windows вызвала многочисленные ошибки компиляции. Поэтому было решено не тратить время на запуск данного бенчмарка при наличии результатов для SpecCPU2017, которые в целом достаточно идентичны SpecCPU2006.

Резюме

Инженеры компании Apple выпустили не только выдающийся процессор, но и снабдили его очень приличным двоичным транслятором для запуска x86-приложений, показывающим достойные результаты производительности. Тем не менее, Huawei ExaGear уверенно обыгрывает Apple Rosetta 2.

Решение от компании Microsoft существенно уступает по производительности вышеуказанным оппонетам, что достаточно ожидаемо, ввиду отсутствия такого большого опыта в разработке двоичных трансляторов.

Сравниваем Huawei ExaGear с Apple Rosetta 2 и решением от Microsoft

Huawei ExaGear vs Apple Rosetta 2

Huawei ExaGear vs Microsoft binary translator

Резюме

Публикации

Информация