Search
Write a publication
Pull to refresh

Comments 3

Порадовало - разница между версиями для произвольной VLEN и конкретно 128 не такая уж большая.

Не порадовало - компилятор сам не сгенерировал RVV код (не далее как в субботу Владимиров убеждал, что масштабируемые расширения вообще и RVV в частности для компилятора удобнее, чем всяческие SSE/AVX).

На самом деле у авх512 тоже есть экзек маски, так что фича в основном в масштабируемости. И кажется зря они добавили вертикальные операции.

Приветствуется подсказка более быстрого решения.

Оказывается подобная проблема существует и обсуждается

Есть лучшее решение, чем в моей статье. Если представить 0х10000=0хFFFF + 1 , то можно обойтись одним умножением с накоплением. __riscv_vwmaccu_vx(__riscv_vwaddu_vv(a, b), -1U, b) Это дает улучшение статистики на 8*120 = 960 тактов.

Sign up to leave a comment.

Articles