Comments 6
Пробовали переписать реализацию на компилируемые ЯП?
Да, посмотрел, вы правы. Для constexpr-модуля компилятор сам оптимизирует % 137, причем лучше моего ручного варианта с while. Поправлю у себя, спасибо.
На scalar-редукции % 137 быстрее Барретта примерно в 1.1-1.5 раза, но в полном бенчмарке эффект небольшой, около пары процентов.
Sign up to leave a comment.
Я попробовал считать нейросетевой слой в конечном поле Галуа GF(137): 4x по памяти, ARM NEON и честные ограничения