SLylova Apr 20 at 07:15

Две проблемы BLAS/gemm на RISC-V

Medium

3 min

1.1K

High performance*

From sandbox

Comments 6

checkpoint Apr 20 at 11:35

Ну так в чём причина такой низкой производительности на RISC-V ? В каких единицах проводилось измерение ? В абсолютных или в нормированных ? Использовалось ли векторное расширение ? Где анализ кода ?

PS: При N>1000 ваша задача просто не помещается в 1МБ кэш микропроцессора C910.

unreal_undead2 Apr 21 at 06:03

При N>1000 ваша задача просто не помещается в 1МБ кэш

Банальный блокинг даже OpenBLAS должен делать.

unreal_undead2 Apr 21 at 06:02

Эта реализация была написана под Lichee Pi, у которого 128-битный векторный регистр. Мною же была сделана оптимизация этой функции под Banana Pi c 256-битным векторным регистром.

Т.е. идея масштабируемых векторных расширений, когда один бинарник может автоматически задействовать любую ширину регистра, не работает даже на gemm?

checkpoint Apr 21 at 08:36

Анализ кода не проведен, совершенно не понятно чего они там накодили и как. И что может означать вот это выражение "адаптация под 256-битный векторный регистр" ? RVV не требует никакой адаптации под длину регистра.

unreal_undead2 Apr 21 at 08:43

В RVV (как и в SVE) можно писать масштабируемый код, а можно закладываться на конкретную длину вектора. Насколько реально написать эффективный масштабируемый код для случаев посложнее однородной обработки массивов - для меня пока вопрос открытый.

byman Apr 21 at 13:19

Так на x86_64 OpenBlas получает производительность примерно 80-90 % от теоретического максимума процессора. А на Risc-v примерно 20-25%

Может кто-нибудь подскажет новичку в этом вопросе как считать эти цифры. Пример с матрицами 32х32. На исходном коде я получил 238000 тактов. С интринсиками код у меня не скомпилировался - чего-то в инструменте не хватает. Но я нашел gemm на ассемблере с векторным расширением. Под регистр 128 бит. Получилось 25000 тактов. Процессор делает 2 мака с float за такт. Итого 4 операции. Всего сложений и умножений 32*32 * (32+32-1)= 64512. Итого теоретический максимум 64512/4 = 16128? Результат 25000 составит 64% от максимума . Верно? Или все не так?