SyncSay10 фев в 18:59

SIMDe, дополнение к DOD архитектуре

Средний

10 мин

12K

Objective C * C++ * Data Engineering * Алгоритмы *

Туториал

+12

Комментарии 16

VladimirFarshatov 11 фев в 03:30

Хорошая статья, просто доступно и понятно. Жаль что не для всех компиляторов и языков.

unreal_undead2 11 фев в 06:14

Не хватает сравнения с существующими решениями и планируемым std::simd.
Как у вас с поддержкой масштабируемых векторных расширений (когда размер регистра неизвестен во время компиляции)?

VladimirFarshatov 11 фев в 08:59

Тут стало непонятно. Компилируем же на конкретную платформу или размер SIMD регистра имеет .. переменную длину? )

unreal_undead2 11 фев в 09:09

Компилируем под конкретный набор инструкций (например SVE), но при этом код может исполняться на разных моделях процессоров с разным размером векторных регистров и ожидается, что он автоматически будет их полностью использовать. Вот тут, например, популярно излагается.

SyncSay 11 фев в 09:43

это avx инструкции а у них размер вектора известен изначально), и еще либа SIMDe помогает компилировать под конкретную архитектуру

unreal_undead2 11 фев в 10:03

С AVX всё понятно, вопрос с поддержкой других архитектур и расширений. Скажем, как вы преобразуете AVX512 интринсик в SVE инструкции, где размер регистра может быть от 128 до 2048 бит (и нет отдельных инструкций для разных размеров регистра, как в SSE/AVX/AVX512)?

SyncSay 11 фев в 10:33

SIMDe это слой совместимости, а не прямой транслятор один в один. То есть если мы вызываем AVX-512 интринсик на архитектуре с SVE, библиотека использует циклы или несколько инструкций SVE, чтобы заполнить требуемый объем данных

подробнее лучше прочитать на официальном GitHub(я закрепил вроде)

unreal_undead2 11 фев в 10:59

Выглядит так, что на каждый AVX512 интринсик придётся генерировать цикл (чтобы работало на железке со 128/256 битными векторами), при этом процессор с векторами больше 512бит выигрыша не даст. Проблема тут скорее в том, что нормальное использование масштабируемых расширений требует специфического паттерна для циклов, в которых обрабатываются массивы (чтобы за итерацию обработать столько элементов, сколько позволяет железо, отсекая ненужные элементы на последней итерации) и перевод на уровне отдельных интринсиков/инструкций с "интеловского языка" вряд ли можно сделать эффективным. Хотя в принципе именно на AVX 512 с масками код можно писать похоже и как то (полу)автоматически адаптировать его к произвольному размеру регистра.

VladimirFarshatov 11 фев в 12:25

За всё надо платить. Режим КЭП-Очевидность выключен. )

unreal_undead2 11 фев в 12:35

Вопрос в самом подходе - насколько хорошо писать на интринсиках для конкретной архитектуры и потом генерировать из них код под другие по сравнению с более абстрактным интерфейсом.

VladimirFarshatov 12 фев в 03:58

Я бы переформулировал иначе: если задача настолько число-молотильная, что требует интринсиков, то стоит ли её переносить на, скажем, неродные ей архитектуры? Согласитесь, что нет смысла обучать ИИ на каком-нибудь 16-битном AVR (или чего проще) .. процессоры делают под задачи, а не наоборот..

unreal_undead2 12 фев в 06:27

Да, для специфических задач типа ИИ имеет смысл заводить отдельное железо. Но и обычные алгоритмы типа поиска подстроки в строке вполне себе ускоряются с помощью SIMD расширений на обычных процессорах (навскидку здесь библиотечка), и тут вопрос как проще написать код с поддержкой разных архитектур.

SyncSay 11 фев в 15:49

на самом деле я слышал что при использовании AVX-512 падает частота процессора, но насколько правда сказать не могу(собственно по этому я использую в основном AVX-256)

unreal_undead2 12 фев в 06:20

Есть такое, очень сильно проявлялось на Skylake (использовать AVX 512 имело смысл только если векторный юнит использовался постоянно, иначе просадка на скалярном коде вокруг убивала всё ускорение), но начиная с Cascade Lake ситуация получше.

SyncSay 11 фев в 10:40

но я советую еще использовать на всякий Atomic, через либу stdatomic.h, тогда race condition не будет(если сделать через ring buffering и очереди степени двойки). Но это не относится к вашему вопросу :)

uxgen 11 фев в 17:17

С переходом на simd начинается веселье типа:

как быстро удалить элементы из x[], y[], z[] массивов
ни в коем случае не использовать скаляры, иначе производительность падает в 5 раз
как сделать ветвление: сгруппировать по типам или использовать маски
как выбрать определенные элементы из массива и плотно упаковать их не переходя на скаляры
как разместить иерархию в памяти: проще когда по 16 нод цепляется, но такого не бывает и нужно заполнить например один simd регистр из 3х родителей и второй simd из 16 их детей и не потерять на этом производительность

Зарегистрируйтесь на Хабре, чтобы оставить комментарий