ComBox 8 окт 2018 в 17:34

Секреты невозможных вычислений на GPU

9 мин

29K

Блог компании ComBox TechnologyВидеокартыМатематика*Программирование*Функциональное программирование*

+21

Комментарии 46

basilbasilbasil 8 окт 2018 в 17:55

OpenCL — ох, ноу…

buldo 8 окт 2018 в 22:41

А что поделать, если нужна переносимость? Слышал, что CUDA приятнее, но написав один раз код на OpenCL его можно запустить как на CPU, так и на GPU от Intel, AMD, nVidia. Вроде даже на мобильных GPU можно. Да и не такой уж он и страшный.

mwizard 8 окт 2018 в 21:48

Первый процессор, получивший действительно массовое распространение – это 8086 от компании Intel, разработанный в 1978 году. Тактовая частота работы 8086 составляла всего 8 МГц. Спустя несколько лет появились первые процессоры внутри которых было 2, 4 и даже 8 ядер.

А можно для тех, кто все проспал — что в 1980 году были за многоядерные процессоры с 2, 4 и даже 8 ядрами?

vesper-bot 9 окт 2018 в 04:41

Ну, 30 — это тоже «несколько», по сравнению со временем жизни Вселенной. ;)

Sau 9 окт 2018 в 07:59

3,7 млрд лет назад на земле образовалась жизнь, а спустя несколько дней появились многоядерные процессоры.

dmi_a 9 окт 2018 в 14:48

С несколькими ядрами внутри — действительно не было. А вот технология SMP взяла старт с 486-х и применялась в серверных решениях. Правда это было уже на излете 486х, незадолго перед выходом Pentium Pro.

Stas911 8 окт 2018 в 22:12

Интересно было б сравнить производительность с реализацией на Cuda

vanxant 8 окт 2018 в 23:00

Да я вам и так скажу — на кластере AMD производительность куды будет равна 0)

basilbasilbasil 8 окт 2018 в 23:23

дык надо же на NV, оба сожрёт

insensible 9 окт 2018 в 01:45

Интересно, почему OpenCL, а не Vulkan? Vulkan для GPGPU сегодня вроде как более современная и перспективная технология.

Ktator 9 окт 2018 в 08:25

А это, как раз написано: в целях совместимости.

Elun 9 окт 2018 в 10:29

Opencl C и glsl compute shaders это всё таки разные вещи. Можно задействовать что-то такое — github.com/google/clspv но я в подобном пока не вижу большого смысла. Плюс я так понимаю в статье чисто вычислительная задача.

pavlushk0 9 окт 2018 в 04:39

Ну хотя бы строчку кода...

riky 9 окт 2018 в 06:11

майнеры поняли что крипту майнить на своих фермах бессмысленно и решили проводить вычисления.

acorn2k 9 окт 2018 в 16:19

Вы правы сейчас не лучшее время для майнинга.
IMHO майнеры не смогут занять нишу параллельных вычислений — так как среднестатистические 6-8 видеокарт это слишком мало для серьёзных расчётов. Плюс надо иметь штат программистов, чтобы писать поставленные задачи под OpenCL.
К тому же вся система должна быть специально спроектирована под параллельные вычисления.
Да и заказчики расчётов — в основном госструктуры и к ним приближенные, а они не будут работать с частниками.
В общем, если и дальше курс крипты будет проседать, то в продаже начнёт появляться всё больше и больше майнинг оборудования.
Не берём в расчёт ASIC'и — это вообще трудно будет продавать.
GPU хоть геймеры будут покупать, а вот куда девать машинку для расчётов SHA-256 я даже не представляю. :)

icoz 9 окт 2018 в 08:15

А научный труд написан? Опубликован? Можно было раздел с литературой привести, если уж претендовать на описание решения научных штук...

spbv 9 окт 2018 в 10:58

Поскольку стою рядышком с процессом, позволю себе ответить за автора — опубликован основной научный труд, по которому проводилась текущая работа. Сейчас обсуждаются детали новой научной публикации в соавторстве, и она будет обязательно опубликована. Относительно раздела с литературой — согласен, есть куда стремиться в части представления материала. Видно, что тема очень интересна сообществу, но не хватает деталей.

Ktator 9 окт 2018 в 08:24

Такая интересная задача и такое плохое описание :( Ну вы же пишете не технический портал, а не на пикабу (при всём уважении к пикабу). Узкие технические подробности (например, про представление чисел) перемежаются с поэтическим описанием.

Сложность решения этой задачи в переборе огромного числа вариантов...

Ну что это за описание сложности? Ну неужели нельзя формулу написать?

Если посмотреть прирост производительности в ходе решения задачи, то результаты были примерно такими...

Здесь бы хорошо смотрелся график. А из такого текста совершенно невозможно понять, например, насколько выше производительность у кластера видях по сравнению с одной видяхой.

В многопоточной среде скорость вычисления увеличилась в 5 раз… На этом этапе решение производило верные расчеты до n=80 за 10 минут, тогда как в Exсel’e эти расчеты занимали полтора месяца

Мне одному кажется, что 10 минут вместо 1.5 месяцев – это не в 5 раз? Или это, всё-таки, разные этапы?

Эта самая интересная часть проекта

А написано всего три абзаца и вообще не про неё :( Хотелось бы видеть основную часть статьи, как раз здесь. О планировщике задач, о профилировании OpenCL кода, о том, какие оптимизации на OpenCL делали, что сработало, а что нет. Вы же решали научную задачу, значит вас не должна связывать коммерческая тайна?

Здесь применён накопленный десятилетиями научный и практический опыт

Жалко, что вы про него написали, но не захотели им поделиться.

О программировании GPU, особенно AMD информации очень мало во всём интернете, а тем более в рунете. И очень жаль, что статья, которая могла стать жемчужиной рунета, стала всего лишь рекламным постером кластера GPU.

UPD: И ни одного секрета так и не рассказали.

acorn2k 9 окт 2018 в 15:19

Спасибо за лучший комментарий!
Согласен мало технических нюансов. Будем подтягивать уровень, поправим статью и указанные недочёты в ближайшее время.

dmi_a 9 окт 2018 в 17:24

Ну что это за описание сложности? Ну неужели нельзя формулу написать?

В худшем случае 2^n. Пути редуцирования (до 2^(n/2) примерно) не так интересны, это специфика задачи. К сожалению, статья раньше была в открытом доступе, а сейчас доступ только по подписке :(

О планировщике задач, о профилировании OpenCL кода, о том, какие оптимизации на OpenCL делали, что сработало, а что нет.

«Путевые заметки» остались, вопрос насколько это интересно. Там много спорного и, к сожалению, немало негатива — видно что AMD технология уже не так интересна как прежде. Инструментарий заброшен, компилятор сломал всю обратную совместимость, APP SDK с сайта не скачать.
Подозреваю, что бросили все силы на Vulkan…

Ktator 10 окт 2018 в 07:26

«Путевые заметки» остались, вопрос насколько это интересно.

Очень даже интересно. Обязательно публикуйте!

К сожалению, статья раньше была в открытом доступе, а сейчас доступ только по подписке

Ссылкой поделитесь? Возможно, у меня есть подписка.

dmi_a 10 окт 2018 в 10:42

Ссылкой поделитесь? Возможно, у меня есть подписка.

mi.mathnet.ru/dm1388
С части IP из России открывается, с части нет

vikarti 14 окт 2018 в 16:00

Вообще, подробностей хотелось бы побольше. И математики и программирования и устройства кластера.

Akon32 9 окт 2018 в 08:36

полтора месяца до n=80 в Excel;
час до n=80 на Core i5 с оптимизированной программой на С++;
10 минут до n=80 на Core i5 с использованием многопоточности;
10 минут до n=100 на одном GPU AMD RX 480;
120 минут до n=127 на ComBox A-480.

Excel считал примерно в 24*45=1080 раз медленнее, чем "оптимизированная программа на С++". Мне казалось, "скриптовые языки" работают не настолько медленно.

Уточните пожалуйста, сколько времени считалось на GPU при n=80 ?

dmi_a 9 окт 2018 в 15:09

При переходе из Excel к C++ поменяли способ хранения данных. В Excel каждая последовательность была представлена массивом чисел (набором ячеек), а на C++ задействовали uint256 и закодировали последовательность в бинарном виде. Если в Excel при проверке на наложение со сдвигом необходимо было перебирать все члены массива, то на C++ это просто битовые операции — rotl, and.
Количество переборов тоже снизили, многие комбинации заведомо не являются решением.

Superl3n1n 9 окт 2018 в 08:58

А зачем вы так сильно накрутили лайки в публикации поста в группе Хабра в ВК?

irony_iron 9 окт 2018 в 09:30

Зашёл в статью только чтобы узнать, ради чего накрутки

acorn2k 9 окт 2018 в 15:44

Зашёл в ВК только чтобы узнать где накрутили. :)
Больше 1100 лайков! Это или пиарщики жгут или «подарок» прилетел.
Но это же не продающий пост, а просто техническая статья.
И зачем накручивать? Крайне не понятно.

agarus 9 окт 2018 в 19:33

Может стараются особо страстные студенты «Чуднова А.М.».

acorn2k 10 окт 2018 в 10:43

Может быть. Так сказать, сдают зачёт. :))))

alan008 9 окт 2018 в 09:04

У меня не сошлось вот это:
час до n=80 на Core i5 с оптимизированной программой на С++;
10 минут до n=80 на Core i5 с использованием многопоточности;

Ваш Core i5 был 6-ядерный?

dmi_a 9 окт 2018 в 15:14

Первый вариант работал в четыре потока + диспетчер.
Дополнительный прирост скорости образовался из-за слияния функций. Видимо более компактный код компилятору проще оптимизировать.
К примеру, SQLite не зря делают Amalgamation — они говорят о росте производительности до 5%

Akon32 10 окт 2018 в 10:58

Могло проявиться т.н. "сверхлинейное ускорение", например если данные длиной M не влезали в кэш, а длиной M/4 начали влезать.

SatyrB 9 окт 2018 в 10:28

Имхо, будущее параллельных вычислений за туманными технологиями.

hobogene 9 окт 2018 в 10:28

Тактовая частота работы 8086 составляла всего 8 МГц.

4.77 или типа того :-) Даже первые 286-е на 6 МГц жили :-)

dmi_a 9 окт 2018 в 15:17

Было несколько модификаций, 8086-1 работал на 10 Мгц

hobogene 9 окт 2018 в 17:49

Да, я знаю и помню. В данном контексте имеет смысл говорить о худшем случае, хотя это мое личное мнение. Строго говоря, наибольшую популярность вообще 8088 получил.

dmi_a 9 окт 2018 в 18:02

Соглашусь, тут мы допустили небрежность. Изначально хотели больше написать про x86 и историю, но потом этот текст ушел, т.к. все-таки статья о другом.

dovudo 9 окт 2018 в 10:29

Простите возможно за глупые вопрос, но как вы распределяете задачи и данные по видео картам в кластере?

dmi_a 9 окт 2018 в 15:24

У нас в одном вычислительном юните 12 GPU, данные на них мы загружали из управляющей программы на языке C. На OpenCL это делается просто — в каждую карту загружается массив входных векторов. Именно задачи тут распределять не нужно, каждый юнит может считать свою последовательность, т.к. решение короткое по времени.
Между юнитами загрузка очень простая, именно для этого случая просто скрипт на питоне.

Ktator 9 окт 2018 в 16:18

А процессор, случайно, не Celeron?

dmi_a 9 окт 2018 в 17:26

Celeron и младшие i3

НЛО прилетело и опубликовало эту надпись здесь

acorn2k 9 окт 2018 в 15:32

Извините за неточность, конечно же — Первый 16-битный процессор.

Slonyxia 9 окт 2018 в 18:14

Очень интересная тема. Но хотелось бы более красочного оформления — как уже писали, было бы отлично вставить графики, формулы, диаграмы и т.д. Математика мне кажется не была бы лишней здесь.
Описано так, будто хотят обьяснить это очень поверхностно, буквально для рандомного прохожего, который возможно слышал про эксель, и что "процессор" это не коробка "кампутера", а отдельный элемент, как и гпу.

acorn2k 10 окт 2018 в 10:50

Спасибо за комментарий. Приняли к сведению, исправимся.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий