А то, что по дефолту грузит все ядра - в этом как раз и есть главная проблема, которая и побудила меня на статью. Поведение по умолчанию может сильно проигрывать. По ссылке Intel как раз рекомендует менять значение переменно окружения KMP_HW_SUBSET, чтобы явно указывать, где исполнять вычисления.

BorisU Jan 4 at 20:44

Где проблема-то? быстрее получается :)

AlexMatveev Jan 4 at 21:30

Быстрее получается, если только вы при этом используете динамическое распределение потоков. Мы же по прежнему MKL обсуждаем? Насколько я понимаю, далеко не все процедуры в нём так реализованы.

BorisU Jan 4 at 21:00

И кстати, неплохо бы было сравнить скорость вашего кода с реализацией из того же MKL

AlexMatveev Jan 4 at 21:36

Смысл статьи все-таки в другом. Если у вас уже есть реализация BLAS, возможно вам следует её адаптировать для достижения максимальной производительности.

radiolok Jan 5 at 10:24

E-ядра в параллельных вычислениях - полная лажа. Я пробовал openFoam гонять с разными конфигами на 12900К - Любое добавление E-ядер уменьшало производительность. Может конечно Intel MPI не умел на тот момент учитывать производительность разных ядер, но результаты бенча были такими:

Время расчета струйного элемента. Меньше - лучше

AlexMatveev Jan 5 at 11:46

Тут скорее вопрос к реализации openFOAM — есть ли там балансировка? MPI — же просто интерфейс обмена сообщениями, если декомпозиция задачи была выполнена без учета дисбаланса, то уже реализация MPI не поможет.

DustCn Jan 5 at 17:32

MPI он ничего не балансирует, как отдекомпозишь модельку - так и поедешь.

Вообще OpenFOAM он про доступ в память больше, а не про флопсы. Большой кэш, больше каналов, более быстрая память - вот что ему нужно.

Ну или если только эта моделька не размера микро, что целиком в L3 помещается, тогда да, ядра могут что то сказать, но не ранее.

murkin-kot Jan 5 at 10:31

Непонятен один совсем простенький момент. Сколько ядер использовалось? Всего. В штуках?

Теория такая: если у вас есть супер производительные штуки, то даже если конкуренты в тысячу раз медленнее, но их тысячи, то они суммарно всё же выиграют. В вашем случае конкурентов 16, а супергероев 8. Так для кого построены графики? Для 8 против 16, или 8 против 24, или 8 против 8? Или?

Удивлён, что очевидные характеристики теста отсутствуют.

Ну и про память. Если даже для 8 участников всё упирается в её пропускную способность, то все остальные тесты есть вообще полная профанация. Вы как-нибудь измеряли вклад памяти? Или опять придётся удивляться?

При прочих равных эксперимент должен выглядеть как 8 быстрых против 8 медленных. Но на это, как уже было замечено, при проведении тестов внимание обращено не было. Ну или не указано в тексте, хотя и очевидно важно.

AlexMatveev Jan 5 at 12:00

Смотрите, нет вопроса "8 производительных или 8 энергоэффективных?". Энергоэффективные ядра все-таки слишком слабы (в этой задаче 1 к 4 примерно).

Вопрос ставится следующим образом: только производительные или производительные совместно с энергоэффективными? Характеристики стенда я указал — то есть тесты приведены для 8P против 8P+16E. Будет какой‑то другой процессор с двумя P‑ядрами и 128 E‑ядрами — картина будет конечно другая, но софт делается здесь и сейчас под существующие процессоры.

Про память - из графиков видно, что упор в память происходит только начиная с определенного размера задачи, так что я не знаю, чему здесь можно удивляться.

DustCn Jan 5 at 19:04

Будет какой‑то другой процессор с двумя P‑ядрами и 128 E‑ядрами — картина будет конечно другая, но софт делается здесь и сейчас под существующие процессоры.

Ну так есть SierraForest , где в топе 144 Е-ядер на сокет. В обычных числодробительных задачах это конечно унылое зрелище, но есть задачки в которых может и потащить.

murkin-kot Jan 6 at 11:05

В тестах аналога, но на поколение моложе, ситуация такая:

На обычных командах (без AVX2) имеем на медленное ядро производительность ~85-86% от быстрого, то есть ровно на разницу в частотах ядер. На AVX2 имеем ~47-48% от быстрого ядра, с учётом частоты будет ~53%. То есть ваши замеры, очевидно, что-то не учли. Скорее всего кэш. Ну и многое другое, предполагаю, тоже.

Давно говорено, что для получения точной статистики необходимо много думать о том, что измеряется. Если эксперимент поставлен внешне логично, но не учёл хотя бы одну важную деталь, вы получаете то, что получили. Но предложенная методика тестирования не учитывает больше чем одну важную деталь.

AlexMatveev Jan 6 at 11:41

Я правильно понимаю, что суть вашей претензии сводится к тому, что "о, ужас" все программы разные? Одни compute bound, другие memory?

Скорее всего кэш.

Допустим, но вывод то какой? Не писать программы, которые активно используют кэш? Не запускать их?

murkin-kot Jan 6 at 13:03

Вывод такой: необходимо разграничивать условия, в которых софт даёт нужные результаты. Нормальное исследование предполагает выявление свойств изучаемого объекта в достаточном многообразии вариантов применения, что бы такими результатами можно было воспользоваться в неких реально полезных областях применения. Если же области применения не учитываются, то практическая польза от исследования остаётся околонулевой.

В вашем случае стоит повторить работу с учётом хотя бы уже перечисленного, то есть, во первых, изолировать собственно вычислительный аспект, не давая сторонним эффектам вроде кэша и скорости доступа к памяти помешать, и во вторых, добавить трансграничных данных, то есть показать, как система ухудшает/улучшает поведение при переходе через чётко обозначенные границы. Ну а границы вам ещё предстоит выяснить.

Кстати, compute bound и memory bound - далеко не полный набор ограничений, которые стоит учитывать.

Поэтому не надо про "не писать программы", надо про "исправить".

AlexMatveev Jan 6 at 20:32

Ни в коем случае не претендую данной статьей на анализ многообразия вариантов применения. Но тем не менее считаю, что выбранная задача похожа на типичную нагрузку в задачах моделирования и обработки данных, где OpenMP как раз широко и используется. С этой же точки зрения считаю, что любая изоляция вычислительного аспекта только бы снизила практическую пользу от исследования.

Но в целом я вас понял. Буду только "За", если вы выполните собственное исследования, исходя уже из типичной нагрузки в вашей области. На этом же предлагаю закончить дискуссию.

CVshnik Jan 6 at 03:06

Для обучения детей такому, неплохо бы добавить анролов циклов либо симд инструкции, у Вас не зря производительность выше теор оценки, но в то же время, она отстает от симд оценок как минимум в 4 раза. Интересно как при использовании векторизации Ваши наблюдения изменятся

AlexMatveev Jan 6 at 11:35

Спасибо! Да, я думаю, что это хорошая идея. Надеюсь, что смогу заняться ею

AlexMatveev Jan 14 at 19:49

Я посмотрел, что происходит с векторизацией. В общем, GCC с флагом -O3 пытается векторизовать цикл скалярного умножения строки матрицы на вектор с использованием SSE-инструкций, но получается это у него не очень эффективно (godbolt). Основная проблема - после перемножения каждой пары векторов он сразу выполняет горизонтальное суммирование элементов результирующего вектора вместо того, чтобы выполнить это один раз в конце (я так понимаю, что он это делает для сохранения исходного порядка операций). Впрочем, эта проблема решилась добавлением #pragma omp simd reduction(+:res) перед циклом.

Эта доработка позволила ускорить вычисления практически до двух с половиной раз, но общая картина осталась прежней. Из интересного - пришлось увеличивать размер блока итераций в версии Dynamic, чтобы получить максимальное ускорение.