PatientZero Dec 24 2024 at 11:06

Деление беззнаковых 8-битных чисел

Medium

13 min

11K

Client optimization * Mathematics * Programming * CPU

Analytics

Translation

+52

Comments 8

XViivi Dec 25 2024 at 01:36

void scalar_div_u8(const uint8_t* a, const uint8_t* b, uint8_t* out, size_t n) {

Я не эксперт и статью не дочитал пока, но я бы на месте автора тут бы поставил какой-нибудь restrict на мутабельный указатель, просто иначе тут может убиваться дикая часть оптимизаций. Хотя лучше сравнить ибо точно не уверен. В общем, я предлагаю ещё и так глянуть, что будет и как соптимизируется:

void scalar_div_u8(const uint8_t* a, const uint8_t* b, uint8_t* restrict out, size_t n) {

nagayev Dec 25 2024 at 05:11

В C++26 как раз завозят SIMD.

А статья годная, спасибо.

Tzimie Dec 25 2024 at 11:40

А нельзя просто заранее записать все 64k возможных результатов в таблицу?

alexey_public Dec 25 2024 at 18:41

Идея замечательная, но тогда может пострадать кеш, что в большом цикле обработки данных будет очень грустно.

Themen Dec 26 2024 at 08:48

Ну там на самом деле половина будет нули, потом ещё четверть - единицы и т.д. Так что не 64k значений. В целом можно написать такой код:

function div8Bit(a, b)

{

if (b === 0) return Infinity;

if (a < b) return 0;

if (a < 2 * b) return 1;

if (a < 3 * b) return 2;

...и.т.д.

}

if (a<b) сработает в половине случаев, следующий if - в четверти и т.д. по убыванию. Можно остановиться на каком-то этапе писать if'ы и остальные значения искать по таблице.

qw1 Dec 26 2024 at 21:38

в таблицу

Цель автора с самого начала - писать векторизованный код.
Вроде как в SIMD-инструкциях нет векторизованного чтения из таблиц.

Melirius Dec 27 2024 at 19:12

Уже есть, но не быстрое и не байтовое.

0serg Dec 28 2024 at 07:06

Чтение из таблицы в кэше L1 идет с темпом 2 результата за 1 такт.

То есть в районе 0.5 в табличке выше, сравнимо с лучшими результатами там.