Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Со снижением частоты — хорошо бы посмотреть на графики температуры. Скорее всего это окажется троттлинг.
AVX — это не в два раза большее SSE, это два SSE!
Нет, тут речь о любых 256-битных AVX инструкциях, т.е. AVX1 и AVX2.
.L4:
vpmovzxbd xmm0, DWORD PTR [rdx+rax]
vcvtdq2ps xmm1, xmm0
vbroadcastss xmm0, DWORD PTR [r8+rax]
add rax, 4
cmp r9, rax
vmulps xmm0, xmm0, xmm1
vaddps xmm2, xmm2, xmm0
jne .L4
Самый быстрый по сравнению с чем?
Как вы понимаете, у меня нет возможности писать об этом в каждой части, поэтому специально для этого была написана часть 0.
Звучит совсем не как «самый быстрый ресайз изображений» в мире.
Совершенно верно. Звучит как «Как я сделал самый быстрый ресайз изображений. Часть 2». И каждое слово тут важно.
Ну дык как бы об этом в предыдущей статье было
Отчасти так происходит потому, что SIMD-подход объективно сложнее и не кроссплатформенный, а отчасти потому, что по нему мало информации.
В статье есть пример:
Заметьте, как много в SIMD-коде приходится делать явно при загрузке значений. В скалярном коде ничего этого нет, компилятор сам понимает, что раз мы умножаем 8-битное целое на float, то первое тоже нужно конвертировать в float.
$ CC="ccache cc -msse4" python ./setup.py develop
Как я сделал самый быстрый ресайз изображений. Часть 2, SIMD