priymak Feb 3 2014 at 10:42

Пример оптимизации вычислений на CUDA

5 min

23K

GPGPU * Concurrent computing *

From sandbox

+16

Comments 18

silvansky Feb 3 2014 at 10:54

Хорошо, но мало. Где примеры? Где графики? Тема-то очень интересная.
Курсовая (или дипломная?) неплоха, но вот в качестве статьи не очень пока, увы.

priymak Feb 5 2014 at 12:54

Добавил связанные материалы внизу статьи «Работы, входящие в одно исследование с данной статьей (добавлено 05.02.2014)».
Детали там, по правилам я не могу их разместить здесь. Однако про проведение оптимизации все равно подробностей недостаточно, но это повод для новой статьи.

oleksandr_veles Feb 3 2014 at 13:13

Двойная точность на GT630?
По-моему, любой современный 4х ядерный процессор порвет в двойной точности эту карту в разы:-)

Kwent Feb 3 2014 at 18:47

Возмущение, конечно, понятно, GT630 для двойной точности не лучший выбор, но думаю не, не порвет, будет просто незначительно лучше, чем CPU. К автору: было бы интересно посмотреть сравнительные графики CPU/GPU или хотя бы комментарий по поводу был ли вообще профит и если да, то какой? или

Время моделирования до оптимизации использования тригонометрических функций составляло 20 минут.

относится к коду на CPU?

priymak Feb 5 2014 at 12:21

20 минут относится к коду на GPU.

На CPU считалось на 1 ядре на Java. Т.к. Java медленный, то ускорение на CUDA по сравнению с Java я получал не менее 35 раз.

oleksandr_veles Feb 5 2014 at 14:06

Тогда все ясно. Вопрос снимается. 1 поток на яве против CUDA :-)
А можете протестировать на мощной карте? gtx titan например? :-)

priymak Feb 5 2014 at 14:50

возможности нет, к сожалению

oleksandr_veles Feb 5 2014 at 16:36

Задача из консоли пускается? под linux работает?

priymak Feb 5 2014 at 17:02

только win7, описание ПО вкратце здесь можно скачать статью conferences.neasmo.org.ua/node/2924

oleksandr_veles Feb 5 2014 at 19:50

Печально, что на win7. Не запустить на нормальных суперкомпьютерах :-)
Останусь при своем мнении, что не так быстра gt630, как медленно работал ява код на CPU.

priymak Feb 5 2014 at 20:44

не спорю)

priymak Feb 5 2014 at 20:48

Эта задача для обычного домашнего пк. Если взять намного больше частиц, то GT 630 не справится, но этого и не требуется.

Stiver Feb 3 2014 at 19:25

По-моему, любой современный 4х ядерный процессор порвет в двойной точности эту карту в разы:-)

Это у вас, наверное, впечатления от 4хх (и более ранних) остались. В 6хх работу с double здорово ускорили. А сравнивать 4(8) параллельных потоков с несколькими тысячами немного смешно.

oleksandr_veles Feb 4 2014 at 10:41

Вы ошибаетесь, как раз наоборот, в 6хх работу с двойной точностью сильно урезали. Только в титанах (ну и теслах конечно) оставили 1\3 от одинарной, в остальных картах двойных блоков 1\24 от кол-ва одинарный блоков. В 5хх и 4хх сериях коэф. был по-моему 1\8.
Поэтому, например, в двойной точности gtx 570 будет гораздо быстрее gtx670.

Даже последняя GT 630 имеет всего 1-2 SMX, или 192-384 cuda ядер, т.е. всего 8-16 блоков двойной точности на 0.9ГГц.
И таки да, их смешно сравнивать с 4 ядрами на 3 ГГц, умеющих обрабатывать 4-8 double за такт (AVX-AVX2) :-)

Xenotester Feb 4 2014 at 10:44

А у CUDA есть какие-то преимущества (кроме C ) перед OpenCL?

oleksandr_veles Feb 4 2014 at 10:53

Более популярный пока, лучше оптимизирован под возможности родных карт nvidia ( и то благодаря почти полному забиванию на OpenCL), больше наработок, средств для программеров и т.п.
В остальном минусы.
Всё IMHO.

Torvald3d Feb 5 2014 at 04:30

А можно код? И скриншоты с nvidia cuda profiler.

priymak Feb 5 2014 at 12:23

nvidia cuda profiler не использую. Считаю через JCUDA, и похоже, nvidia cuda profiler не получиться использовать.