Comments 3
Порадовало - разница между версиями для произвольной VLEN и конкретно 128 не такая уж большая.
Не порадовало - компилятор сам не сгенерировал RVV код (не далее как в субботу Владимиров убеждал, что масштабируемые расширения вообще и RVV в частности для компилятора удобнее, чем всяческие SSE/AVX).
Приветствуется подсказка более быстрого решения.
Оказывается подобная проблема существует и обсуждается
Есть лучшее решение, чем в моей статье. Если представить 0х10000=0хFFFF + 1 , то можно обойтись одним умножением с накоплением. __riscv_vwmaccu_vx(__riscv_vwaddu_vv(a, b), -1U, b) Это дает улучшение статистики на 8*120 = 960 тактов.
Sign up to leave a comment.
RISC-V: векторное расширение и алгоритм Витерби