PatientZero26 дек 2025 в 06:58

Когда компиляторы удивляют

Простой

2 мин

13K

Компиляторы * Программирование * Assembler *

Перевод

+40

Комментарии 32

NeriaLab 26 дек 2025 в 07:02

А что со "старенькими" компиляторами - 16-бит/32-бита Вы экспериментировали с ними?

Siemargl 26 дек 2025 в 18:13

Они такого не умеют. Это появилось в последних поколениях Gcc (ну может с 9) и clang раньше, причём подходы кардинально разные. Gcc был ближе к эвристикам, а clang (и ICC) к моделированию.

Про msvc не скажу, не интересовался.

NeriaLab 26 дек 2025 в 18:57

Благодарю за ответ

HyperWin 26 дек 2025 в 07:08

Разработчики компиляторов гребаные волшебники.

Refridgerator 26 дек 2025 в 07:59

В данном случае - фокусники, а подобные оптимизации (по заранее известным шаблонам) и существуют только для того, чтобы производить впечатление вот в в такого рода статьях. В математике существует большая куча подобного рода формул, в частности для квадратов, кубов и даже синусов. Просто в школьную программу они не входят и не все прогеры о существовании подобного подозревают.

Seraphimt 26 дек 2025 в 10:25

существуют только для того, чтобы производить впечатление вот в в такого рода статьях.

Насколько я знаю, в LLVM есть правило - оптимизация должно быть или очевидно полезной, или подтверждаться примером из практики, что так действительно пишут.
Плюс, не надо забывать, что оптимизации идут конвейером и реальной код может быть совсем иным, а здесь уже заинлайнены функции, константы посчитаны, какие-то избыточные проверки выкинуты и т.д. и т.п.

mark_ablov 26 дек 2025 в 11:20

Не, в данном случае это не peephole оптимизация, а всё круче)

Denis_Chernyshev 26 дек 2025 в 07:54

Это же кто-то засунул в компилятор известный анекдот от математиков.

Говорят, что на одном из уроков, учитель математики решил дать задание для класса, в котором учился Гаусс, с таким расчетом, чтобы подольше занять учащихся. Недолго думая, педагог предложил обучающимся найти сумму чисел от 1 до 100. Юный Карл Фридрих Гаусс, уже с этого возраста отличавшийся незаурядными, решил задачу практически мгновенно.

nin-jin 26 дек 2025 в 08:11

Что же такого незаурядного было у юного Карла Фридриха Гаусса так останется.

garwall 26 дек 2025 в 13:41

ну насколько я помню эту легенду, там была не формула последовательной суммы, а чуть более изящное в контексте соображение: 1 + 2 + 3 ... + 97 + 98 + 99 + 100 == (1 + 99) + (2 + 98) + (3 + 97) ... + (49 + 51) + 50 + 100

funca 26 дек 2025 в 21:32

Там проще: 1 + 100, 2 + 99, ..., 50 + 51 = 101 × 50

nerudo 26 дек 2025 в 08:32

Осталось вбить в компилятор формулы для всех прочих известных рядов.

avdx 26 дек 2025 в 09:00

Ну с gcc думаю тут достаточно все просто и особой магии нет. Видимо компилятор сначала решил сделать частичный unroll цикла, что вроде как достаточно стандартная оптимизация и у него получилось что то вроде:

for (int x = 0; x + 1 < value; x += 2)
{
  result += x;
  result += x + 1;
}
... // обработка хвоста

После этого просто оптимизировал тело цикла.

А вот то, что clang может определять арифметическую прогрессию и знает формулу ее суммы, да, выглядит удивительно.

mark_ablov 26 дек 2025 в 11:19

LLVM не знает этого. Но в нём есть блок "Scalar evolutions" (https://www.npopov.com/2023/10/03/LLVM-Scalar-evolution.html), который определяет некоторые характеристика цикла, в том числе и способен представить значение result в виде рекуррентной формулы.

zanzack 26 дек 2025 в 14:18

В своё время меня поразил такой трюк.
Рассмотрим программу на С для деления чисел на константу 450 (файл main.cpp)
На самом деле подойдёт любая константа, необязательно 450.

#include <stdio.h>
#include <stdint.h>

uint64_t div450(uint64_t a)
{
	return a/450;
}

int main(void)
{
   uint64_t a;
   scanf("%lld", &a);
   printf("result = %lld\n", div450(a));
   return 0;
}

Компилируем с опцией -O2

call "C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Auxiliary\Build\vcvars64.bat"
cl.exe -O2 main.cpp

Смотрим, что получилось -

.00000001`40001024: 488D542430                  lea          rdx,[rsp][030]
.00000001`40001029: 488D0D00B30100              lea          rcx,[00000001`4001C330] ;'%lld'
.00000001`40001030: E89B000000                  call        .00000001`400010D0  ;scanf
.00000001`40001035: 488B4C2430                  mov          rcx,[rsp][030]
.00000001`4000103A: 48B813F0CDAB89674523        mov          rax,23456789`ABCDF013
.00000001`40001044: 48F7E1                      mul          rcx
.00000001`40001047: 482BCA                      sub          rcx,rdx
.00000001`4000104A: 48D1E9                      shr          rcx,1
.00000001`4000104D: 4803D1                      add          rdx,rcx
.00000001`40001050: 488D0DE1B20100              lea          rcx,[00000001`4001C338] ;'result = %lld'
.00000001`40001057: 48C1EA08                    shr          rdx,8
.00000001`4000105B: E810000000                  call        .00000001`40001070 ;printf
.00000001`40001060: 33C0                        xor          eax,eax
.00000001`40001062: 4883C428                    add          rsp,028 ;'('
.00000001`40001066: C3                          retn

Деление на 450 превращается... превращается...
В элегантное умножение на 0x23456789ABCDF013 (плюс еще некоторые трюки).
Но красиво же!
И быстрее работает - умножение быстрее деления.

R0bur 28 дек 2025 в 14:44

И быстрее работает - умножение быстрее деления.

Хоть что-то в этом мире пока не перевернулось! Как в бейсик-интерпретаторах умножение было быстрее деления, так и сейчас f = g * m1 * m2 * r2, где r2 = 1 / r^2, вычисляется быстрее, чем f = g * m1 * m2 / r^2. Несмотря на FPU, MMX, SSE2 и другие страшные аббревиатуры.

R0bur 26 дек 2025 в 16:31

Компиляторы то и дело удивляют меня очень хитрыми трюками.

Я не против таких трюков со стороны компилятора до тех пор, пока их можно отключать. Иногда требуется, чтобы машинный код отражал буквально то, что записано в высокоуровневом тексте программы.

Siemargl 26 дек 2025 в 18:10

-О0

VladD-exrabbit 26 дек 2025 в 18:56

Забудьте. Вот тут даже с -O0 компилятор заменил x * 2 на x + x. As-if-rule действует всегда.

Siemargl 26 дек 2025 в 19:33

Невелика оптимизация, clang и icc используют shl, zig c умножает, но пролог ужас.

Возможно, стоит брать компилятор потупее, например tcc или вообще freepascal.

Вопрос, какие цели ставятся при этом.

Upd. Я ошибся - даже -O0 не надо ставить, без опций и gcc умножает.

VladD-exrabbit 26 дек 2025 в 19:39

Но вы хотели, чтобы код компилировался наивно, «как написано». Гарантии нету даже с -O0.

VladD-exrabbit 26 дек 2025 в 20:01

Или вот ещё: в коде умножение на 0, но в компиляте нету умножения даже с -O0.

Siemargl 26 дек 2025 в 21:34

Здесь нет нарушения As-if-rule

VladD-exrabbit 29 дек 2025 в 00:01

А я и не говорил, что as-if-rule нарушается. Наоборот, as-if-rule говорит, что ожидать наивной, «буквальной» компиляции не имеет смысла. Компилятор имеет право на любое равносильное преобразование.

ALEX_k_s 28 дек 2025 в 04:54

Без опций в gcc это эквивалент О0

R0bur 28 дек 2025 в 07:33

Вот тут даже с -O0 компилятор заменил x * 2 на x + x.

Интересно, а чем x + x в данном случае лучше сдвига x << 1?

nin-jin 28 дек 2025 в 07:54

Задействованы разные блоки процессора, разные инструкции могут быть исполнены параллельно на разных блоках.

R0bur 28 дек 2025 в 14:34

Интересно, в моём представлении сдвиговые и битовые операции "лучше" любых арифметических - с точки зрения скорости выполнения и занимаемой памяти. А вот про многопоточность не подумал.

VladD-exrabbit 29 дек 2025 в 00:05

Возможно, это особенность конкретного процессора (я указал -march=haswell). Именно поэтому ручная оптимизация наподобие замены умножения на сдвиг может оказаться и пессимизацией (но продвинутый компилятор всё равно из множества операций с одинаковой семантикой (x + x, x << 1, x * 2) выберет самую оптимальную, даже если программист ошибся в ручной «оптимизации»).

BorisU 29 дек 2025 в 07:26

Возможно тем, что для x86 можно использовать инструкцию lea, которая не трогает флаги.

j123123 27 дек 2025 в 11:36

Не, тут все не так однозначно. Вот https://godbolt.org/z/MzTd3fx7T для наглядности переписал на uint32_t и результат возвращается в uint64_t. Вручную записанная формула лучше компилируется, и никаких переполнений тут нет

#include <inttypes.h>

uint64_t sum_up_to2(uint32_t value)
{
  return ((uint64_t)value*(value-1))/2;
}

uint64_t sum_up_to(uint32_t value)
{
  uint64_t result = 0;
  for (uint32_t x = 0; x < value; ++x) {
    result += x;
  }
  return result;
}

Seenkao 29 дек 2025 в 07:23

Видимо открою вам секрет. Многие алгоритмы разработаны очень давно и большая часть из них давно используются в оптимизациях компилятора.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий