Как одна буква в ассемблере стоит 3× производительности
Hard
10 min
Case

Я хочу показать вам, как одна буква в ассемблере может стоить 3× производительности. Не в теории — на живых замерах. По дороге мы заглянем внутрь процессора: Register Alias Table, partial register merge, scheduler, latency vs throughput, и даже обнаружим, что делитель выдаёт остаток раньше частного.
Но начнём с основ. Приготовьтесь: кроличья нора окажется глубже, чем кажется.