deniaa 13 июн 2023 в 08:01

Сказка про Branch prediction

9 мин

10K

Блог компании КонтурВысокая производительность*Программирование*.NET*C#*

+42

Комментарии 23

webhamster 13 июн 2023 в 08:51

Ммм, а про какие процессоры в этой статье идет речь? Если в процессоре есть предикатные регистры, результаты же будут совсем другие, разве нет?

deniaa 13 июн 2023 в 09:48

В данной статье рассматривались только обычные промышленные Intel'ы.

В самом конце сделано не очень явное замечание, что есть случаи, когда на специальном железе существуют специальные инструкции, сильно меняющие поведение.

unreal_undead2 13 июн 2023 в 09:52

На обычных промышленных Intel есть маски в AVX512 - для рассматриваемого примера они, конечно, не очень годятся, но попробовать использовать можно.

webhamster 13 июн 2023 в 12:12

Но на ARM давно уже вовсю используются предикатные регистры, это же не специальное железо. И ARM-овские десктопы тоже стали обыденностью.

deniaa 13 июн 2023 в 12:36

Я согласен, что зря не указал явно Intel-специфичность описываемых наблюдений.

И согласен с тем, что ARM это действительно не специальное железо, а обыденность в индустрии, как и те же видеокарты.

Спасибо, что сделали это важное замечание.

В качестве забавного наблюдения могу отметить, что мы в команде изучали возможность применения ARM'а для нашего проекта (кластер большой, интересовались в том числе и с экономической точки зрения). И оказалось, что ещё десятилетие назад в коде были сделаны неявные завязки на Intel-специфику. В итоге, в том числе новые Mac-и на ARM-ах использовать в нашей команде пока что не выйдет :)

sophist 13 июн 2023 в 09:32

А чем второй пузырёк от сортировки вставкой отличается?

deniaa 13 июн 2023 в 09:53

В данной статье эти алгоритмы рассматриваются исключительно с точки зрения демонстрации эффекта от branch prediction. Алгоритмы намеренно очень похожи, чтобы выполнять "одинаковое число практически одинаковых инструкций". Исходя из этого, совершенно не важно, на что они похожи.

Иначе можно начать придираться к тому, что даже в рамках текущей complexity можно сделать ещё кучу оптимизаций.

Или можно начать погружаться в огромную и очень интересную тему сортировок :)

sophist 13 июн 2023 в 11:40

Я не придираюсь, мне действительно интересно, есть ли между ними какие-то различия

deniaa 13 июн 2023 в 11:54

Да, второй "пузырёк" ничем не отличается от сортировки "вставкой".

Впрочем, аналогия с пузырьком мне кажется более удачной. Только пузырёк не "всплывает", а "тонет" до нужного уровня.

sophist 15 июн 2023 в 14:06

Любопытно, никогда не думал раньше, что "вставку" можно рассматривать как "пузырёк" в обратную сторону.

(P.S. Если пузырёк не всплывает, а тонет, то это не пузырёк, а осадок :)

event1 13 июн 2023 в 18:47

сортировка вставкой — это когда находят нужное место, а потом обменивают. В пузырьке всегда обменивают два соседних.

sophist 15 июн 2023 в 14:02

Позвольте, но ведь не обменивают, а именно вставляют. А это в случае индексированного доступа требует сдвига на элемент (что, по сути, и есть цепочка обменов соседних).

event1 15 июн 2023 в 15:10

Истинно так. А когда обменивают это сортировка выбором, оказывается. 20 лет коту под хвост.

Tsimur_S 13 июн 2023 в 10:30

TTTTTTT....TTTFFF...FFFFFFF

А разве не TFTFTFTF...?

AxeFizik 13 июн 2023 в 10:50

Нет, в статье числа отсортированы по критерию четности, а не по возрастанию/убыванию, так что сначала будут идти все четные числа, а потом все нечетные.

Хотя судя по статье на которую регулярно ссылается автор, вариант TFTFTFTF… тоже будет оптимизирован

unreal_undead2 13 июн 2023 в 10:54

При сортировке по возрастанию вряд ли будет строгое TFTFTFTF... , всё таки входной массив случайный.

Tsimur_S 13 июн 2023 в 12:51

Спасибо, пропустил этот момент.

DrSmile 13 июн 2023 в 13:01

В видеокартах стоит не проблема предсказателя переходов, а проблема низкой утилизации варпов. Насколько я понимаю, там, вообще, предсказателя переходов нет, вместо него толстый SMT с десятками потоков на ядро (именно настоящими потоками — варпами, каждый из которых состоит из 32/64 суб-потоков, которые по сути элементы SIMD вектора). Не известно, какую инструкцию делать следующей, — не беда, в очереди на исполнение стоит еще десяток потоков, можно исполнить инструкцию того, у которого все известно. Проблема с ветвлениями на GPU связана с тем, что это SIMD архитектуры и процессор физически не может исполнить разные инструкции для разных частей варпа, поэтому выполняет обе ветки if по очереди.

unreal_undead2 13 июн 2023 в 13:16

Да, в целом как то так

не беда, в очереди на исполнение стоит еще десяток потоков

Вы пишете как будто проблем вообще нет - реально всё таки есть компромисс между числом SMT потоков и размером регистрового файла на поток. Но да, SMT на GPU - основная техника борьбы c latency, заменяющая предсказание переходов и OoO.

DrSmile 13 июн 2023 в 13:24

Нет проблем конкретно с предсказателем переходов (за его отсутствием). В общем, "модель угроз" там другая и бороться с бранчами надо по другому (например, если предсказатель переходов CPU без проблем распознает шаблон TFTFTFTF, то для GPU нужно строго все T или все F).

unreal_undead2 13 июн 2023 в 13:26

Согласен. Другое дело, что в реальной жизни divergence совсем убрать нельзя, не всем же нужно множить большие dense матрицы )

LittleAlien 13 июн 2023 в 18:46

"реализация GetEvensCount без if всё-таки чуть-чуть медленнее, чем с if'ами"

Хотя это и несколько оффтоп, но попиарю в очередной раз компилятор Clang:
https://gcc.godbolt.org/z/WoMbrx8zx
SIMD, развёртка, считаем 32 числа за итерацию - эта версия уж точно не медленнее.
Значит, в общем случае избавляться от if выгоднее.

dmalkr 17 июн 2023 в 10:19

Ясно, что в первом случае автор хотел продемонстрировать работу предсказателя переходов, но в данном случае задача решается ещё проще: надо посчитать количество нечётных и вычесть это число из длины массива. У нечётных установлен последний бит, так что просто суммируем эти биты:

int oddCount = 0;
for (int i = 0; i < array.Length; ++i) oddCount += (array[i] & 1);
return array.Length - oddCount

Наверняка, это ещё и компилятором в SIMD'ы какие-нибудь свернутся.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий