Да, посмотрел, вы правы. Для constexpr-модуля компилятор сам оптимизирует % 137, причем лучше моего ручного варианта с while. Поправлю у себя, спасибо.

cpud47 Jun 8 at 02:41

Не для constexpr, а просто для любого деления на константу. Для деления на неконстанту есть libdivide — лучше оттуда взять алгоритм (чтобы не было while)

ankro Jun 7 at 22:43

На scalar-редукции % 137 быстрее Барретта примерно в 1.1-1.5 раза, но в полном бенчмарке эффект небольшой, около пары процентов.