Об ассемблере EuroAssembler, о котором вы, возможно, не слышали / Хабр

В начале небольшой дисклеймер — эта статья не является рекламой, я не имею к продукту ровно никакого отношения, но этот кроссплатформенный ассемблер с открытым исходным кодом вполне заслуживает небольшого обзора и может оказаться полезен, чем и хотелось бы поделиться. Автором же является программист Павел (Pavel Šrubař @vitsoft) из небольшого уютного чешского городка Vítkov. Трудится он в Чешской Почте в IT отделе.

У читателя предполагается наличие базовых знаний об устройстве компьютера, регистрах процессора и о том, как он вообще выполняет всё, о чём его просят. Статья не является исчерпывающим руководством по архитектуре и системе команд процессора, синтаксису ассемблера (это может занять книгу и не одну), но просто этакий "кик-стартер" для любопытствующих и желающих разобраться поглубже.

Нужно ли знать ассемблер в современных реалиях? Это зависит от многих факторов. Современные оптимизирующие компиляторы в общем избавляют от необходимости написания кода на ассемблере, более того, порой "самописный" код может исполняться даже медленнее кода на Си, но знание и понимание инструкций помогает находить и анализировать "узкие места" там, где проседает производительность и помогает понять тонкости устройства центрального процессора (для некоторых он так и остаётся магией). Но каждый решает сам. Зачем нужен ещё один ассемблер и зачем это на хабре? Автору (ассемблера, а не статьи) были неудобны существующие решения, он решил сделать сам, так как удобно ему. Ну а будет ли это удобно читателям — решать вам.

Если ограничить кругозор ОС Windows, существует несколько макро-ассемблеров, их не так много. Если основным инструментом является Visual Studio, то будет логичен выбор ассемблера MASM. Он достаточно популярен, бесплатен и на хабре были статьи с его применением. Из альтернатив можно смело упомянуть FASM (Flat Assembler) и NASM (Netwide Assembler). В принципе у каждого есть свои плюсы и минусы. Есть и малоизвестные, например входящий в состав Pelles C. Эти ассемблеры могут отличаться синтаксисом и идеологией (кто-то может ассемблировать в объектный файл, а другие имеют встроенный линковщик) но речь не о них. Важно понимать, что на "чистом" ассемблере далеко не уехать, поэтому у них есть приставка "макро", когда можно упростить программирование при помощи макросов.

Я впервые столкнулся с ассемблером при разработке рентгеновского дифрактометра на ДВК-4, где операционная система RT11FB позволяла запустить две задачи параллельно, собственно управление дифрактометром и автоматизация эксперимента была выполнена на ассемблере MACRO-11, а математическая часть и интерфейс пользователя на Си. Там выбор ассемблера сильно упростил жизнь в 56 килобайтах памяти.

Не будем далеко ходить — домашняя страница euroassembler.eu, а скачать его можно вот отсюда, это прямая ссылка на актуальную версию https://euroassembler.eu/download/euroasm.zip. Этот ассемблер написан на себе самом, и, с одной стороны, это даёт компактность и портабельность, но с другой стороны, на него нервно реагируют эвристики некоторых антивирусов (но и виртуалки никто не отменял). Я честно попытался найти последовательность байтов, которая "триггерит" эвристику, разделяя файл пополам и отправляя половинки в VirusTotal, но так и не смог найти. Если у вас больше опыта с антивирусами — пожалуйста напишите в комментариях.

После распаковки у вас в руках будет euroasm.exe размером всего четыреста килобайт. Весь исходный код этого ассемблера открыт и доступен, его несложно пересобрать в случае необходимости.

Первая программа

Как говорили великие — единственный способ научиться программировать — это начать писать программы, давайте для начала просто сложим два числа и выведем результат в консоль (чистый "Hello, Habr!" будет состоять из одного макроса и вообще не будет содержать ни строчки на ассемблере, так что разбавим пример хотя бы mov и add).

Всё, что вам надо знать, это то, что у процессора есть Регистры (коих шестнадцать штук общего назначения) и Инструкции, которыми он оперирует.

Структура минимальной программы на этом ассемблере очень проста, вот она полностью:

EUROASM
AddHabr PROGRAM Format=PE, Entry=Start

INCLUDE winapi.htm, cpuext32.htm

Result D 8*B

Start: 	nop
	mov eax, 17
	add eax, 29
	StoD Result
	StdOutput =B"17+29=", Result
	TerminateProgram
ENDPROGRAM

Давайте разберём все строчки, их тут десяток всего-то. Ссылки на документацию приводятся.

Программа начинается с ключевого слова EUROASM, за которым вообще говоря могут идти опции, но в этой минимальной программе они не нужны (потому что выставлены по умолчанию).

Следом идёт имя программы и ключевое слово (псевдоинструкция) PROGRAM, перед которой находится имя программы, за которым две опции — формат PE, что означает Portable Executable (если бы мы писали DLL, то было бы очевидно DLL), и точка входа (может быть любая строка — Start, Begin или main — всё, что хотите, вы видите эту метку чуть ниже). Кстати, в одном файле может быть несколько секций PROGRAM, тогда у них должны быть разные имена, и в этом случае компиляцией одного файла можно сразу получить несколько исполняемых файлов или библиотек.

Затем следует INCLUDE — здесь мы включаем две библиотеки макросов, из одной мы возьмём макрос перевода числа в строку, а из второй — вывод в консоль. И расширение .htm — это не ошибка — да, вы можете хранить код в HTML. Включать можно не только библиотеки, но вообще любые файлы, обычно им даётся расширение *.inc.

Result D 8*B резервирует восемь байт для результата (для короткого числа в этом примере нам больше и не надо).

Следом идёт метка Start: , это входная точка программы, куда будет передано выполнение после загрузки в память, и инструкция nop. Наличие оператора nop помогает евроассемблеру отделить ~~мух от котлет~~ код от данных — так работает автосегментация. Это позволяет избавиться от явного указания секций [.text] и [.data]. Также в отладчике этот NOP удобно видеть как "метку" начала программы и начала отладки.

mov eax, 17 заносит значение 17 в регистр EAX, а add eax, 29 добавляет туда 29. Числа 17 и 29 я взял не случайно — 1729 это симпатичное число Рамануджана-Харди. Регистр не важен — можете писать MOV EAX,17, так предпочитает автор, но в основном нынче используются строчные буквы, время семибитных кодировок кануло в лету.

StoD Result берёт значение RAX (там 46) и переводит его в ASCII строку "46", копируя в буфер, на который указывает Result. Как бы аналог itoa(). На самом деле перевод числа в строку на чистом ассемблере — не такая уж тривиальная задача, загляните в исходник по ссылке выше, там больше полусотни инструкций.

Ну а StdOutput =B"17+29=", Result выводит на экран 17+29=46. =B — это "синтаксический сахар", позволяющий "заинлайнить" строковую константу-литерал, кроме того макрос StdOutput может принимать переменное число аргументов. Здесь также надо понимать, что для вывода в консоль надо ведь вначале получить хендл через GetStdHandle(), затем писать через WriteConsole(), при этом строка может содержать Юникод, вот от всего этого нас и избавляет данный макрос.

Затем программа завершается через TerminateProgram (это тоже макрос, который вызывает ExitProcess() из kernel32.dll) и ключевое слово ENDPROGRAM (если у вас несколько программ в одном файле, то там понадобится имя программы). TerminateProgram не есть обязательная вещь — программа завершится и так, но формально пусть будет — ей можно передать код возврата ошибки.

Создайте файл AddHabr.asm, да хоть в блокноте Windows и скопируйте туда код, что был выше, сохраните этот файл там же, где находится euroasm.exe (либо скопируйте весь евроассемблер в %APPDATA%\eurotool и добавьте путь в PATH). Сборка программы осуществляется при помощи команды euroasm.exe AddHabr.asm. Всё.

Если вы скопировали всё без ошибок, то после компиляции появится файл AddHabr.exe, который и выведет это сообщение 17+29=46.

Маленький лайфхак — если вам лень ставить редактор с поддержкой ассемблер-синтаксиса, равно как и возиться с командным промптом, просто поставьте Far Manager, встроенный редактор (новый файл Shift+F4, редактирование F4) понимает ассемблер и раскрашивает код, а компиляцию можно упростить через пользовательское меню, всё вместе это будет выглядеть как-то так (как видите, все папки дистрибутива не нужны, достаточно maclib и objlib):

Нехитрый код выше оставляет широкий простор для экспериментов. Например, вы можете не хардкодить, а попросить пользователя ввести числа из консоли, давайте для разнообразия сделаем в 64 бит:

EUROASM CPU=x64
%^SourceName PROGRAM Format=PE, Width=64, Entry=Start

Buffer1   D 32*B
Buffer2   D 32*B
Result    D 32*B

INCLUDE winabi.htm, cpuext64.htm

Start: 	nop
		StdOutput =B"Enter 1st Operand >"
		StdInput Buffer1
         StdOutput =B"Enter 2nd Operand >"
		StdInput Buffer2
		LodD Buffer1
		mov rbx, rax
		LodD Buffer2
		add rax, rbx
		StoD Result
		StdOutput =B"Result:", Result
       	TerminateProgram
ENDPROGRAM

Здесь несколько небольших изменений.

Во-первых, имя программы заменено на переменную %^SourceName. Так удобнее работать в сценарии "один файл—одна программа", потому что имя будет браться из имени файла (и именно под этим именем будет создаваться исполняемый файл или библиотека DLL). Переменных там много — €ASM system %variables.

Кроме того, мы переехали на 64 бита добавлением CPU=x64 и Width=64 и соответственно поправили INCLUDE, также вместо 32-битных регистров типа EAX используется 64-бит RAX.

Затем добавлены два буфера для входных строк.

StdOutput вы уже знаете, этот макрос выведет приглашающий промпт, а вот StdInput получит данные, введённые пользователем и запишет введённое значение в буфер, на который указывает Buffer1 (как ASCII символы, включая перевод строки). Затем всё повторяется для второго операнда. Таким образом, если мы введём "42", то в буфере будут 0x34, 0x32, 0x0D, 0x0A.

Теперь нам надо конвертировать ASCII строку в значение, что-то типа atoi(), это делает макрос LodD, который возвращает значение в регистр RAX (теперь у нас 64 бит). Мы сохраним это значение в RBX, и повторим LodD для второго буфера. Теперь в RBX у нас первый операнд, а в RAX второй. Команда add RAX, RBX их складывает, и дальше всё как и выше. Важный момент — при таком использовании вы должны быть абсолютно уверены, что LodD Buffer2 не изменит значение RBX! (чтобы в этом убедиться, достаточно заглянуть в исходник макроса).

Предположим, в качестве следующего упражнения мы хотим использовать стек для хранения первого введённого операнда, затолкаем RAX в стек и вытащим его в RBX:

		LodD Buffer1
		push rax
		LodD Buffer2
		pop rbx
		add rax, rbx
		StoD Result

Кстати, в этом ассемблере поддерживаются множественные переменные при работе со стеком, то есть не надо писать отдельно push rax, push ebx, а можно одной командой push rax, rbx — это удобно.

Либо можно завести временную переменную, зарезервировав восемь байт памяти:

TempVar   D Q      ; Reserve one qword.
; ...
		LodD Buffer1
		mov [TempVar], rax
		LodD Buffer2
		add rax, [TempVar]
		StoD Result

Можно получить значения из аргументов командной строки, для этого есть макросы GetArgCount и GetArg. В общем не бойтесь экспериментировать. Ассемблер снабжён неплохой инструкцией, кроме того довольно большим количеством примеров и проектов, в конце есть несколько для Windows, от простого консольного приложения, поддерживающего юникод до заготовки оконного приложения.

Как справедливо заметили в комментариях, этот ассемблер может "собрать" файл для Линукса в том числе, всё что нужно для этого — заменить формат PE на ELFX и включить linapi.htm вместо winapi.htm, вот минимальный код:

EUROASM
HelloHabr PROGRAM Format=ELFX, Entry=Start

INCLUDE linapi.htm

Start: 	nop
	StdOutput =B"Hello, Habr!", Eol=yes
	TerminateProgram
ENDPROGRAM

после сборки которого вы получите файл HelloHabr.x, который можно тут же запустить под WSL:

$ ./HelloHabr.x
Hello, Habr!
$ file HelloHabr.x
HelloHabr.x: ELF 32-bit LSB executable, Intel 80386, version 1 (SYSV), statically linked, not stripped

Более того, вы можете собирать исполняемые файлы одновременно для Windows и Linux (равно как и 32- и 64-бит версии) сложив общий код во включаемый файл и пользуясь тем фактом, что в одном файле можно иметь множественные секции PROGRAM, единственная хитрость — нужно сбросить макросы между программами:

EUROASM AutoSegment=Yes, CPU=X64, SIMD=AVX2

HelloLinux PROGRAM Format=ELFX, Width=64, Entry=Start:
INCLUDE linabi.htm, cpuext64.htm
INCLUDE Code.asm ; < Your code
ENDPROGRAM HelloLinux

%DROPMACRO *  ; Forget macros defined in "linabi.htm".

HelloWindows PROGRAM Format=PE, Width=64, Entry=Start:
INCLUDE winabi.htm, cpuext64.htm
INCLUDE Code.asm
ENDPROGRAM HelloWindows

Кстати, этот метод работает "в обе стороны", в том смысле, что вы можете не только собирать программы для Линукса из под Windows, но и наоборот из под Линукса под Windows, запуская euroasm.x.

Отладчик

Очень рекомендуется овладеть отладчиком. Можно использовать WinDbg, но многие предпочитают x64dbg, хотя он не без проблем (в смысле общей стабильности), но во многом удобнее.

Как им пользоваться? Допустим, вы не очень уверенно понимаете, как работает стек. Пишете небольшое приложение, которое заносит значения в два регистра, заталкивает их в стек, обнуляет (xor rax, rax — стандартный способ, привыкайте) и вытаскивает обратно:

EUROASM CPU=x64
%^SourceName PROGRAM Format=PE, Width=64, Entry=Start

Start: 	nop
		mov rax, 0x17
		mov rbx, 0x29
		push rax, rbx
		xor rax, rax
		xor rbx, rbx
		pop rbx, rax
		jmp Start
ENDPROGRAM

Запустите отладчик x64dbg (для отладки 32 бит приложения надо будет запускать 32-бит отладчик, у нас же 64 бита), затем откройте файл приложения (F3), после чего однократно нажмите F9 для загрузки и перемещения на точку входа, вы должны остановиться на NOP, затем пройдите пошагово, нажимая F7. Вот что вы увидите:

Хорошо видно, как уменьшается значение регистра RSP (указатель стека) на 8 байт при каждой инструкции push и как данные записываются в область памяти, на которую указывает указатель стека. Заметьте также, что ассемблер заменил инструкции mov rax, .. на mov eax, .., сэкономив вам несколько байт.

Ещё полезная вещь — листинг компиляции, который для примера выше выглядит вот так:

|                              |EUROASM CPU=x64
|                              |%^SourceName PROGRAM Format=PE, Width=64,...
|[.text]                       ::::Section changed.
|00000000:                     |
|00000000:90                   |Start: 	nop
|00000001:B817000000           |		mov rax, 0x17
|00000006:48BB2900000000000000 |		mov rbx, 0x29, IMM=Q
|00000010:5053                 |		push rax, rbx
|00000012:4831C0               |		xor rax, rax
|00000015:4831DB               |		xor rbx, rbx
|00000018:5B58                 |		pop rbx, rax
|0000001A:EBE4                 |		jmp Start
|                              |ENDPROGRAM
|   **** ListMap "StackTest.exe",model=FLAT,groups=0,segments=2,entry=Start
| [.text],FA=0200h,VA=00401000h,size=28,width=64,align=0010h,purpose=CODE
| [.rsrc],FA=0400h,VA=00402000h,size=13660,width=32,align=0010h,purpose=RES

Тут в левой колонке показаны машинные коды, в которые будут преобразованы инструкции. NOP — это машинный код 0х90 (который знает наизусть каждый реверс-инженер). Эти же машинные коды вы видите и в отладчике выше. Для примера я указал, что хочу получить именно 64-бит код для второго mov, добавив модификатор IMM=Q, и вы видите появившийся префикс 48 и 64 бит константу в восьми байтах. Вся архитектура фон Неймана раскрывается во всей красе.

Внизу вы видите виртуальный базовый адрес 00401000h (он складывается из стандартной базы 0х400000 и смещения), его же вы видите и в отладчике и секции файла, они выровнены на границу четырёх килобайт (0х1000), что составляет стандартный размер страницы памяти Windows. Всё просто.

Эксперимент — WinAPI

Вам никто не запрещает напрямую вызывать функции WinAPI прямо из Ассемблера, в 64-бит программе это делается следующим образом, для совсем тривиального примера два последовательных вызова GetTickCount64(), разделённых Sleep(1000):

EUROASM CPU=x64, SIMD=AVX2
%^SourceName PROGRAM Format=PE, Width=64, Entry=Start

Elapsed	D 32*B

INCLUDE winabi.htm, cpuext64.htm

Start: 	nop
	WinABI GetTickCount64
	push rax
	WinABI Sleep, 1000
	WinABI GetTickCount64
	pop rbx
	sub rax, rbx
	StoD Elapsed
	StdOutput =B"Sleep(1000) - ", Elapsed, =B" ms", Eol=yes
	jmp Start
ENDPROGRAM

Макрос WinABI следует соглашениям о вызове 64-бит функций — результат GetTickCount64() возвращается в RAX, параметр 1000 передаётся в Sleep() через RCX. Как результат вы будете видеть разницу в диапазоне 1000...1016 миллисекунд — так работает таймер низкого разрешения. В принципе ИИ способен достаточно внятно объяснить этот код выше.

Само собой, вы можете вызывать не только WinAPI, но и любые экспортированные функции из любой DLL, вот, к примеру, если рудиментарный вывод в консоль вас не устраивает, вы вполне можете воспользоваться стандартной printf(...) из msvcrt.dll:

EUROASM CPU=X64, SIMD=AVX2
printf1 PROGRAM Format=PE, Width=64, Model=Flat, Entry=main:
INCLUDE winabi.htm

LINK msvcrt.lib ; for printf(...)
    
main: nop
	mov rax, 42
	WinABI printf, =B"printf: The Answer is %%d", rax
ENDPROGRAM

При этом поддерживается и динамический вызов при отсутствии *.lib файла, так тоже можно:

EUROASM CPU=X64, SIMD=AVX2
printf2 PROGRAM Format=PE, Width=64, Model=Flat, Entry=main:
INCLUDE winabi.htm
    
main: nop
	mov rax, 42
	WinABI printf, =B"printf: The Answer is %%d", rax, Lib=msvcrt.dll
ENDPROGRAM

И поскольку евроассемблер — это и ассемблер и линковщик "в одном флаконе", то существует удобный скрипт, генерирующий библиотеку импорта lib из динамической библиотеки — dll2lib.htm.

Вообще использовать ассемблер для микробенчмаркинга очень хорошо, поскольку всё находится в ваших руках, позволяя спуститься на уровень машинного кода, но, конечно же не при помощи GetTickCount. Ниже ещё пара примеров. Обычно в этом месте дотошные читатели резонно замечают, мол всё тоже самое можно получить на Си/С++ заметно меньшими усилиями, и это в общем так, но в данном случае мы не зависим от компилятора, его версии и опций оптимизатора, и всё под контролем. Ниже ещё несколько примеров на ассемблере, они не настолько велики, чтобы ради них писать отдельные статьи, но в контексте изложения — вполне уместны.

Эксперимент — работа предсказателя переходов

Не так давно на хабре была статья Ловушка профилирования, где были получены довольно любопытные результаты. Суть там была в том, что используя google benchmark производились замеры времени исполнения кода с переходами и эквивалентного кода без них, и внезапно выяснилось, что результат зависим не только от кода, но и от данных, которые используются — при проходе по одному и тому же массиву результаты улучшались, а при изменении данных от прогона к прогону — ухудшались. Вот как можно провести поверку результатов на ассемблере.

Для начала нам понадобится пара нехитрых макросов, которыми мы будем обкладывать наш код, время выполнения которого мы хотим измерить и макрос, который выведет результат. Предполагается, что мы вызовем код много раз в цикле и возьмём минимальное время прохода — это стандартный способ для синтетического бенчмаркинга:

Buffer  DB 80 * B

StartBench %MACRO
	CPUID
	RDTSC
	shl rdx, 32
	or rax, rdx
	mov r8, rax	
%ENDMACRO

EndBench %MACRO Min
	RDTSCP
	shl rdx, 32
	or rax, rdx
	sub rax, r8
	mov rbx, [%Min]
	cmp rax, rbx
	cmova rax, rbx
	mov [%Min], rax
%ENDMACRO

PrintBench %MACRO Message, Min
	mov rax, [%Min]
    StoD Buffer
    StdOutput =B%Message, Buffer, =B" Ticks", Eol=Yes, Console=Yes
	Clear Buffer, Size=80
	mov [%Min], -1, DATA=Q
%ENDMACRO

Здесь используется инструкция RDTSC для получения тиков тактового генератора, работающего на базовой частоте процессора. Пара CPUID/RDTSC...RDTSCP — это классический подход для того чтобы свести к минимум влияние конвейеризации на результаты. Значение при старте сохраняется в R8. Затем в конце сравнивается с минимальным значением, которое обновляется. Обратите внимание на инструкцию cmova — это стандартный способ избавиться от явного перехода if (value<min) min = value; а сравниваем мы беззнаковые числа.

Ещё нам понадобится генератор случайных чисел, который заполнит массив Array размером %SIZE случайными байтами 0 или 1. Этот код, кстати, генерированный ИИ копилотом чуть более чем полностью и в общем живой и рабочий, при этом количество вызовов rdrand минимально — мы берём оттуда одиночные биты, так что один вызов поставляет нам 64 случайных числа, я оставлю оригинальные комментарии как есть:

random PROC
	mov rdi, Array
	mov rcx, %SIZE
	xor rdx, rdx

.next_byte:
    test    rcx, rcx
    jz      .done             ; finished

    ; if no bits left in rbx, get a new 64-bit random value
    test    rdx, rdx
    jnz     .have_bits

.get_rdrand:
    rdrand  rbx               ; random 64-bit value in rbx
    jnc     .get_rdrand       ; retry if CF=0 (no random value)
    mov     rdx, 64           ; 64 bits available

.have_bits:
    ; take lowest bit of rbx, store it as a byte 0 or 1
    mov     al, bl            ; copy low byte
    and     al, 1             ; keep only lowest bit (0 or 1)
    mov     [rdi], al         ; store into buffer
    shr     rbx, 1            ; drop used bit
    dec     rdx               ; one less available bit
    inc     rdi               ; advance buffer pointer
    dec     rcx               ; one less byte to fill
    jmp     .next_byte

.done:
    ret
ENDPROC random

Вот, почти всё готово, теперь мы напишем небольшой тест, который запустим десять тысяч раз, меняя содержимое массива на каждом проходе вызовом call random:

EUROASM CPU=X64, SIMD=AVX2, SPEC=Enabled
%^SourceName PROGRAM Format=PE, Width=64, Model=Flat, Entry=main

%SIZE %SET 4096
%ITER %SET 10000

INCLUDE winscon.htm, winabi.htm, cpuext64.htm
INCLUDE Benchmark.inc, Random.inc

Array:  DB %SIZE * BYTE ; 4 KiB Buffer
RCycl DB Q -1
NCycl DB Q -1

main:nop 
	StdOutput =B"Branch prediction benchmark", Eol=yes
;-----------------------------------------------------------------------------
; First Test - random array every time
	mov  r10, %ITER             ; number of timing iterations
loop:
	call random
	StartBench
    mov  r11, %SIZE             ; loop counter N
    lea  r12, [Array]           ; r12 = address of byte array
    xor  r13, r13               ; r13 = taken-branch counter (per timing run)
loop_start:
    mov  bl, [r12]              ; load current value (0 or 1)
    test bl, bl
    jz   branch ; branch-taken path
    inc  r13                     ; do some harmless work
branch: ; no work for 0, but still advance
    inc  r12                     ; next byte
    dec  r11
    jne  loop_start
	EndBench RCycl
    dec  r10
    jnz  loop
	PrintBench "Rand Array: ", RCycl

В регистре R13 у нас будет количество переходов, при случайном массиве размеров 4К должно быть что-то около двух тысяч, это просто для самоконтроля.

Ну а второй тест мы будем запускать по одному и тому же массиву:

;-----------------------------------------------------------------------------
; Second Test - same array every time
	mov  r10, %ITER               
loop2:
StartBench
    mov  r11, %SIZE               
    lea  r12, [Array]       
    xor  r13, r13                
loop_start2:
    mov  bl, [r12]          
    test bl, bl
    jz   branch2 
    inc  r13                   
branch2: 
    inc  r12                    
    dec  r11
    jne  loop_start2
	EndBench NCycl
    dec  r10
    jnz  loop2
	PrintBench "Same Array: ", NCycl

	TerminateProgram
ENDPROGRAM

И вот результат на процессоре Хасвелл:

Branch prediction benchmark
Rand Array: 51960 Ticks
Same Array: 36524 Ticks

Как видите, в первом случае процессору потребовалось в полтора раза больше времени, так работает постоянно ошибающийся предсказатель переходов. Он на самом деле многоуровневый и может "удержать" в памяти до 4К последних переходов. Я изначально полагал, что основное влияние оказывает кэш, но нет, это именно эффект предсказателя. Можно воспользоваться профилировщиком VTune либо Intel PCM и убедиться, что количество промахов предсказателя значительно выше в первом случае. Это на самом деле неплохой результат для цикла, в котором семь инструкций, отрабатывающего 4 тысячи итераций. В качестве самостоятельного упражнения попробуйте оставить массив, забитый нулями (да просто закомментируйте вызов call random добавив перед этой строкой ";") и вы увидите, как количество тиков упадёт где-то до восьми тысяч — это всего два такта на итерацию. Так работает конвейер вкупе с предсказателем, всегда верно угадывающим переход — ведь современный процессор может выполнять несколько инструкций, таких как комбинации dec/jne и dec/jnz при верно предсказанном переходе за один такт.

Эксперимент — сравнение INC и ADD

Ещё один эксперимент, основанный на статье Может ли устареть инкремент....

Значение регистра процессора можно инкрементировать двумя способами — либо как inc rax, либо add rax, 1. Есть ли разница между этими командами? Небольшой эксперимент на ассемблере поможет ответить и на этот вопрос. Кроме того в рамках этого эксперимента мы может воочию увидеть латентность и пропускную способность инструкций. Замеры мы будем проводить двумя способами — в одном случае мы будем просить выполнить инкремент одного и того же регистра, это даст нам зависимость по данным, а во втором случае — независимых регистров, и в этом случае процессор может начать их параллельное выполнение соответственно пропускной способности. Значения латентности и пропускной способности можно проверить в таблицах uops.info.

Чтобы выдать последовательность одних и тех же команд без утомительного копипастинга , мы воспользуемся макро языком ассемблера. Основная управляющая конструкция выглядит вот так:

i  %FOR  0..10000
	inc eax
%ENDFOR i

Здесь будет выдано десять тысяч последовательных команд inc eax, одна за одной. Если бы мы использовали нативный цикл ассемблера, то счётчик цикла "сбил" бы нам результат измерений, его пришлось бы учитывать, а в данном случае у нас именно непрерывная последовательность. Она не должна быть очень большой, желательно, чтобы мы полностью поместились в кэш инструкций, но и не маленькой, чтобы эффект был хорошо заметен.

Теперь важно понять следующее. Когда мы выдаём команды inc eax, inc eax, ... одну за одной — они зависимы по данным, это значит, что процессор должен формально дождаться выполнения предыдущей инструкции, чтобы начать следующую (хотя и не всегда — это зависит от архитектуры). Количество тактов, затрачиваемое на одну такую инструкцию — это латентность. Однако если наши инструкции будут независимы, то процессор может начать выполнение следующей, не дожидаясь предыдущую, и количество таких инструкций, выполняемых за один такт — это пропускная способность. Последовательность из десяти тысяч независимых инструкций создаётся вот так:

i  %FOR  0..2500
	inc rax
	inc rbx
	inc rcx
	inc rdx
%ENDFOR i

Здесь у нас 2500 раз повторённая последовательность из четырёх команд, всё вместе — 10000.

Кстати, в этом ассемблере вы можете комбинировать множественные инкременты, то есть код "inc rax, rbx, rcx, rdx" - это ровно тоже самое, что и четыре отдельных инкремента выше.

Полный код под спойлером

EUROASM AutoSegment=Yes, CPU=X64, SIMD=AVX2
%^SourceName PROGRAM Format=PE, Width=64, Model=Flat, IconFile=, Entry=main:

%ITER %SET 250_000

INCLUDE winscon.htm, winabi.htm, cpuext64.htm
INCLUDE benchmark.inc

Cycles DB Q -1

main: nop
	mov r9, %ITER
L1: ; --- Latency for ADD Instruction
	StartBench
i  %FOR  0..10000
	add eax, 1
%ENDFOR i
	EndBench Cycles
	dec r9
	jnz L1
	PrintBench "ADD cycles (Latency) = ", Cycles

    mov r9, %ITER
L2: ; --- Latency for INC Instruction
	StartBench
i  %FOR  0..10000
	inc eax
%ENDFOR
	EndBench Cycles
	dec r9
	jnz L2
	PrintBench "INC cycles (Latency) = ", Cycles

	mov r9, %ITER
L3: ; --- Throughput for ADD Instruction
	StartBench
i  %FOR  0..2500
	add rax, 1
	add rbx, 1
	add rcx, 1
	add rdx, 1
%ENDFOR i
	EndBench Cycles
	dec r9
	jnz L3
	PrintBench "ADD cycles (Throughput) = ", Cycles

    mov r9, %ITER
L4: ; --- Throughput for INC Instruction
	StartBench
i  %FOR  0..2500
    inc rax, rbx, rcx, rdx
%ENDFOR i
	EndBench Cycles
	dec r9
	jnz L4
	PrintBench "INC cycles (Throughput) = ", Cycles

    TerminateProgram
ENDPROGRAM

И вот результат для процессора Xeon E5-1620 v3 (Haswell):

>AddInc.exe
ADD cycles (Latency) = 10028 Ticks
INC cycles (Latency) = 10028 Ticks
ADD cycles (Throughput) = 3376 Ticks
INC cycles (Throughput) = 3364 Ticks

Всё красиво — для 10000 зависимых инструкций процессору надо примерно 10000 тиков, это ровно одна инструкция на такт, а вот для независимых инструкций — втрое меньше, потому что он начинает выполнять три инструкции за каждый такт. И нет, разницы между INC и ADD ровно никакой. Единственное отличие в длине машинного кода, ведь add eax, 1 это три байта 83C001, а вот inc eax — только два FFC0. Более компактный код занимает меньше места в кэше инструкций и в общем предпочтительнее.

Ситуация, кстати, поменяется, если погонять этот код на P и E ядрах гибридного процессора, например на Core i7-13850HX, вот там ADD инструкция окажется предпочтительнее на Е ядрах, но это уже совсем другая история. Я не буду показывать результаты, поскольку здесь придётся объяснять, что RDTSC на самом деле показывает количество тиков на базовой частоте процессора, а он как правило работает на повышенной частоте и в реальности количество тактов на данном процессоре окажется заметно выше, кроме того придётся делать поправку на разную частоту ядер и лучше использовать RDPMC, но там есть свои тонкости, о которых я писал в статье Достучаться до RDPMC, но вот про исключение, которое можно спровоцировать этой инструкцией, хотелось бы написать особо.

Эксперимент — обработка исключений

Вообще при программировании на Ассемблере не бойтесь исключений вам прилетающих. Здесь вы с процессором "один на один" и можете легко отправить его в нокдаун. На выброшенные исключения натыкался каждый программист, и каждый, работающий с С++ в курсе про __try... __except, но мой беглый опрос коллег показал, что не каждый точно знает, как именно исключение обрабатывается, и вот тут ассемблер может помочь разобраться (или, напротив, запутать, тут уж кому как).

Мы не будем искать простых путей. Запись по нулевому указателю, равно как и деление на нуль — это слишком уж просто, там можно избежать исключения банальной проверкой. Давайте возьмём пример посложнее, когда шансов нет — мы попросим процессор выполнить привилегированную инструкцию не имея на это соответствующего разрешения. Выше упоминалась RDPMC, которая как раз таковой и является.

Вот вам наипростейшая программа на ассемблере:

EUROASM CPU=x64
%^SourceName PROGRAM Format=PE, Width=64, Entry=Start

INCLUDE winabi.htm

Start: 	nop
	StdOutput =B"Before RDPMC Call", Eol=yes
	xor ecx, ecx
	RDPMC ; Exception!
	StdOutput =B"After RDPMC Call", Eol=yes
	TerminateProgram
ENDPROGRAM

При запуске вы увидите первое сообщение, но не увидите второго, потому что в просмотрщике событий вы увидите ошибку с кодом 0хс0000096:

(тысяча извинений за немецкий скриншот, но тут всё понятно). Это документированная ошибка STATUS_PRIVILEGED_INSTRUCTION.

Ровно того же эффекта вы добьётесь если попробуете на С++ __readpmc():

#include <iostream>
#include <windows.h>

int main()
{
    // This will fault unless RDPMC is enabled for user mode
    std::cout << "Before RDPMC call" << std::endl;
    uint64_t value = __readpmc(0);
    std::cout << "RDPMC value: " << value << std::endl;

    return 0;
}

Однако не всё так плохо, ведь вы можете сделать вот так:

#include <iostream>
#include <windows.h>

int main()
{
    std::cout << "Before RDPMC call" << std::endl;
    __try {
        // This will fault unless RDPMC is enabled for user mode
        uint64_t value = __readpmc(0);
        std::cout << "RDPMC value: " << value << std::endl;
    }
    __except (EXCEPTION_EXECUTE_HANDLER) {
        std::cout << "SEH caught RDPMC exception!" << std::endl;
    }
    return 0;
}

И в этом случае программа не упадёт, она честно выдаст SEH caught RDPMC exception!

И вот тут если вы попросите объяснить, как именно производится структурированная обработка исключений, то многие затруднятся ответить, а на самом деле там всё относительно несложно.

Вот эквивалентный код на ассемблере, заодно и протестируем адекватность кнопки "объяснить код":

EUROASM CPU=X64, SIMD=AVX2
%^SourceName PROGRAM Format=PE, Width=64, Model=Flat, IconFile=, Entry=Start
INCLUDE winscon.htm, winabi.htm, cpuext64.htm
[.text]
Start: nop
       StdOutput =B"Hello, SEH", Eol=yes
try:   MOV ECX,0 ; Instructions Retired
       RDPMC ; EXCEPTION_PRIV_INSTRUCTION (0xC0000096)
safe_place:
       StdOutput =B"Sucessfully finished", Eol=yes
       TerminateProgram
handler:
       SUB RSP,8*(4+1) ; 0x0F8 is offset to CONTEXT64.Rip:
       mov [R8+0x0F8], safe_place, DATA=Q
       StdOutput =B"Instruction caused exception", Eol=yes
       XOR EAX,EAX
       ADD RSP,8*(4+1)
       retn
[.data]
       align 4 ; alignment is required
UNWIND DB 0x19,0,0,0 ; Hard coded for the moment
       DD RVA# handler
       DD 0
[.pdata] SEGMENT PURPOSE=EXCEPTION
       DD RVA# try
       DD RVA# safe_place
       DD RVA# UNWIND
ENDPROGRAM

Здесь есть три важных адреса: try — это то место, где может поплохеть, затем safe_place: — это там, где снова станет хорошо, и handler:, которое суть обработчик.

Чтобы сообщить операционной системе о том, как мы собираемся обрабатывать ошибку, служит секция [.pdata], туда занесены три адреса (по сути это RUNTIME_FUNCTION структура) — собственно критическое место и безопасное продолжение, а также адрес UNWIND_INFO структуры. Магическое число 0х19 образуется из трёх битов, где один отвечает за версию, а другие два говорят о том, что у нас есть есть SEH‑обработчик UNW_FLAG_EHANDLER с пользовательским обработчиком UNW_FLAG_UHANDLER. Следом идёт относительный адрес обработчика (тут все адреса относительные, поэтому RVA, это как раз добавилось в свежей версии этого ассемблера). Теперь, когда мы налетаем на грабли инструкцией RDPMC, ядро операционной системы первым делом просматривает таблицу обработчиков, если её нет, то программа аварийно завершается, а вот если есть, управление передаётся нашему обработчику handler:. Но это не просто передача управления, по сути под капотом идёт вызов функции с четырьмя параметрами, которые передаются согласно соглашению о вызовах Win64 ABI. Вот почему нам первой же командой нужно выравнивание стека на 4 параметра плюс один — это адрес возврата (можно и SUB RSP, 48 сделать, хуже не будет). Четыре параметра, которые нам передаются, берутся из вот такого прототипа

typedef EXCEPTION_DISPOSITION (*PEXCEPTION_ROUTINE) (
    IN PEXCEPTION_RECORD ExceptionRecord,
    IN ULONG64 EstablisherFrame,
    IN OUT PCONTEXT ContextRecord,
    IN OUT PDISPATCHER_CONTEXT DispatcherContext
);

Соответственно они передаются через регистры RCX, RDX, R8 и R9. Из всего этого нас интересует лишь структура PCONTEXT ContextRecord, адрес который лежит в R8, так как это третий параметр. Смещение 248 байт 0x0F8 — это поле RIP. А RIP это указатель адреса текущей инструкции. Именно сюда мы записываем адрес безопасного продолжения safe_place. Больше от нас ничего не требуется, мы выводим сообщение, что нас настигло исключение, сбрасываем код ошибки и восстанавливаем стек обратно. По выходу из процедуры обработчика исключения ядро выставит наш желаемый "безопасный" RIP, и мы выведем последнее сообщение. Вот и всё. На самом деле можно усложнить — например получить код исключения, и т.д.

Это как раз тот пример, когда ассемблер помогает понять механизм работы.

На этом можно было бы остановиться, но хотелось бы добавить, что код на ассемблере можно собрать и в DLL, которую вызвать из любого языка, который это допускает, начиная от Си и Питона и заканчивая Растом и LabVIEW, что открывает возможности для практического применения ассемблерного кода и интегрирования его в сторонние приложения.

DLL на ассемблере

Чтобы не усложнять, давайте просто сложим пару байтовых массивов, но используя SIMD инструкции, и вызовем полученную библиотеку, скажем из LabVIEW. Помимо очевидной замены РЕ на DLL нам потребуется занести нашу функцию в таблицу экспорта, ну и конечно же назубок выучить соглашение о передаче параметров. Собственно и всё:

EUROASM CPU=X64, SIMD=AVX2, AMD=ENABLED
AsmDLL64 PROGRAM FORMAT=DLL, MODEL=FLAT, WIDTH=64

EXPORT add_bytes_avx2
; void add_bytes_avx2(const uint8_t* a,
;                     const uint8_t* b,
;                     uint8_t* c,
;                     size_t n);
add_bytes_avx2 PROC
    test    r9, r9
    jz      done

    ; number of full 32-byte blocks
    mov     r10, r9
    shr     r10, 5            ; r10 = n / 32
    jz      tail

avx_loop:
    vmovdqu ymm0, [rcx]
    vmovdqu ymm1, [rdx]
    vpaddb  ymm0, ymm0, ymm1
    vmovdqu [r8], ymm0

    add     rcx, 32
    add     rdx, 32
    add     r8,  32
    dec     r10
    jnz     avx_loop

tail:
    ; remaining bytes
    and     r9, 31
    jz      done

tail_loop:
    mov     al, [rcx]
    add     al, [rdx]
    mov     [r8], al

    inc     rcx, rdx, r8
    dec     r9
    jnz     tail_loop

done:
    vzeroupper ; important for ABI
    ret
ENDP add_bytes_avx2

ENDPROGRAM AsmDLL64

И результат:

Очевидно, что эту же функцию можно вызвать откуда угодно.

Литература

Из числа более-менее современных книг можно порекомендовать Modern X86 Assembly Language Programming: Covers X86 64-bit, AVX, AVX2, and AVX-512:

Автор — Даниэль Куссвюрм. Второе издание было переведено на русский под названием "Профессиональное программирование на ассемблере x64 с расширениями AVX, AVX2 и AVX-512".

Код к этой книге выложен на гитхаб и вполне переносим на данный ассемблер. Также можно порекомендовать титанические заметки по оптимизации Агнера Фога и Performance Analysis and Tuning on Modern CPUs Дениса Бахвалова. В принципе этих материалов уже достаточно для начала увлекательного путешествия, и я хочу пожелать всем удачи на этом тернистом пути.