Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
когда каждый регистр на счету
Есть такие вещи как Register renaming, shadow register
В AMD Zen сериях 1000 и 2000 инструкции AVX вроде как работают на 128 битных регистрах, т.ч. нужно делать два прохода.
Процессоры Intel снижают частоту при исполнении AVX.
Т.ч. всё сложно.
Разница в одну инструкцию: первом случае vpcmpeqw -> vpand -> vpaddw, а во втором только vpcmpeqw -> vpsubw. По идее, это само по себе может 30% выигрыша дать на больших массивах.Не обратил внимания, что вы предлагаете vpand вставлять в цикл. Я думал там просто сложение… и в конце уже только, перед выдачей результата пользователю, вернуть минус сумму.
Не обратил внимания, что вы предлагаете vpand вставлять в цикл.
и в конце уже только, перед выдачей результата пользователю, вернуть минус сумму
Один программист по имени Wojciech Muła публикует статьи по практическому применению SIMD: http://0x80.pl/articles/index.html
Мне нравится его подход со сравнением разных реализаций для одной конкретной задачи.
Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX