jmistx13 июл 2010 в 14:02

Сравнение OpenCL с CUDA, GLSL и OpenMP

3 мин

46K

Высоконагруженные системы *

+93

Комментарии 43

curlydevil 13 июл 2010 в 14:46

glsl на ати уделывает куду… жаль, до этого момента был полноценным привержецем НВидии =( теперь буду начинать задумываться…

homm 13 июл 2010 в 14:54

Помоему видеокарты разного класса, хотя и одного поколения.

geka 13 июл 2010 в 17:28

даже не одного поколения
автор немного ошибся, насчет G92 у FX5600 — там все-таки G80
а G92 у 8800 GTS 512mb и 250 GTS
и если уж сравнивать HD4890, то только с gtx280

cst 13 июл 2010 в 15:37

Что-то я не увидел что уделывает.
В какой таблице?

DLag 13 июл 2010 в 16:37

Смотрите 1-ю и 2-ю таблицы.
Все предельно наглядно.

XakFak 13 июл 2010 в 16:55

Хмм, или я таблицу не вижу или чем меньше Fps и Gflops тем лучше?
На таблицах fps и gflops у Cuda больше чем у Glsl не так ли?

DLag 13 июл 2010 в 17:20

Ок, смотрим.

1-я таблица, NVIDIA, 2048 частиц, CUDA:
FPS: 1398
GFLOPS: 117.27

2-я таблица, ATI, 2048 частиц, GLSL:
FPS: 3109
GFLOPS: 260.71

В 2.22 раза ATI GLSL быстрее NVIDIA CUDA и в 3.43 раза быстрее NVIDIA GLSL.

Конечно видеокарты разные, но поколение одно.
Отрыв ATI просто поражает.

geka 13 июл 2010 в 17:32

поколения немного разные, RV790 как раз примерно раза в 2 быстрее G92
но если протестить GT200, то результаты будут примерно равны с RV790

Toshas 13 июл 2010 в 16:25

Видеокарты были выпущены с интервалом в год или больше. Пусть прогонят на GTX 480 — вот это будет интереснее. А, и кстати, 4890 — двухчиповая.

Oblitus 13 июл 2010 в 16:34

Нифига. 4890 это вторая ревизия 4870.

А вообще выбор видеокарт очень странный — было бы интересно сравнить не слона с китом, а одно поколение и одну нишу. То есть HD 5870 и GTX 480.

jmistx 13 июл 2010 в 17:10

Вы абсолютно правы. Но сравниваются не две разные видеокарты, а технологии внутри одной архитектуры.

К несчастью, флагманских моделей на руках не было.

Alaunquirie 13 июл 2010 в 19:46

Учи матчасть, 4870х2 — двухчиповая, 4890 это работа над ошибка 70ой серии.

cst 14 июл 2010 в 03:53

5890 двухчиповая ^_^
Это я к тому, что те кто не следят могут перепутать.

jmistx 13 июл 2010 в 16:36

Дело в том, что у этих карточек разная архитектура.

На карточках AMD стоят суперскалярные процессоры, а на Nvidia — скалярные.

Но те карточки от AMD, которые мы тестировали физически не имели на чипе локальную память, и следовательно некоторые алгоритмы, которые на этой самой локальной памяти завязаны, начинают безбожно тормозить.

Скромное мнение: оба класса карточек весьма хороши в своём.

stmuxa 13 июл 2010 в 17:15

не спеши :)
habrahabr.ru/blogs/hi/96122/#comment_3053676

sidristij 13 июл 2010 в 14:49

Перенесите в публичный блог, на главную уйдет, материал хороший.

Kentzo 13 июл 2010 в 15:24

А вы пробовали запускать написанный OpenCL код на гибридной системе (то есть не выбирая конкретный девайс)?

jmistx 13 июл 2010 в 16:41

Вы хотели сказать, «переложить выбор устройства на усмотрение API» или «запустить одну программу на CPU и GPU одновременно»?

Суть гетерогеных вычислений — во втором.
Вызов API функций без указания устройства приведёт к первому.

Kentzo 13 июл 2010 в 16:56

Хмм… я предполагал, что при достаточном количестве задач на исполнение они начнут распределяться между устройствами, или я не прав?
В любом случае я имел ввиду именно «запустить одну программу на CPU и GPU одновременно».

jmistx 13 июл 2010 в 17:08

Программист сам должен определять какая задача на каком устройстве будет исполнена.
Можно одну и ту же задачу на разных данных запустить.
Можно разные.
Но всё-равно это придётся сделать руками.

m007 13 июл 2010 в 15:39

Я если честно не понял для чего эти сравнения. OpenCL это надстройка над решениями разных прозводителей, чтобы проще было портировать код. Постепенно потерю производительности будут снижать.

jmistx 13 июл 2010 в 16:17

В целом верно, но не совсем.

Если для NVidia — OpenCL это действительно надстройка над CUDA, то для продуктов AMD это единственный способ программировать видеокарту для решения задач общего назначения (подразумеваем, что шейдеры заточены под графику и их мы использовать не будем, хотя и можем).

И не совсем ясно над каким решением OpenCL является надстройкой для центральных процессоров.

naum 14 июл 2010 в 04:50

ATI Brook мертв?

jmistx 14 июл 2010 в 07:54

Brook+ больше не поставляется с ATI Stream SDK, от него отказались в сторону развития открытого стандарта OpenCL.

SabMakc 13 июл 2010 в 16:30

А можно как-нибудь получить скомпилированные EXE-шники? Погонять в домашних условиях.

jmistx 13 июл 2010 в 16:48

На винте остались только тесты для CPU, чтобы их погонять придётся поставить ATI Stream SDK.
Вот тест для 512 частиц, с рендерингом.

rghost.ru/2114631

Mear 13 июл 2010 в 16:42

Несмотря на то, что тесты проводились на карточке серии Quadro, понятно, что обычный GeForce 8800 GTS или GeForce 250 GTS дадут схожие результаты (все три карточки основаны на чипе G92).

Вроде как Quadro FX5600 основана на G80, как и 8800 GTS, а вот 256 GTS действительно на G92.

jmistx 13 июл 2010 в 17:05

Первой моделью на основе полноценного чипа G92, со всеми включенными потоковыми процессорами, была GeForce 8800 GTS 512MB, выпущенная в конце 2007 года

Источник ixbt и википедия.

Про Quadro вы оказались правы, недоглядел, исправлюсь.

fessmage 13 июл 2010 в 17:51

До 8800gts 512mb которая основана на g92, были две карты 8800gts 320mb и 8800gts 640mb основанные на g80.

MAGNUS8 13 июл 2010 в 16:52

Карта Radeon HD4890 всех порвала. Я ничего не напутал?

jmistx 13 июл 2010 в 17:07

На шейдерах. Тем более сравнивать разные таблицы в общем случае мы не имеем права.
Только значения внутри одной таблицы.

И с OpenCL на AMD всё несколько плачевно, хотя это, предположительно, ненадолго.

stmuxa 13 июл 2010 в 17:13

порвала на тесте GLSL-версии реализации.
видимо потому что на HD4890 шейдерных процессоров в 6,25 раз больше чем на FX5600.
(хотя порвала-то не в 6,25 раз)

akzhan 13 июл 2010 в 18:52

Очень полезная статья, хотя зря тестировались конкуренты разных поколений.

Выложите исходники на GitHub, кто-нибудь оттестирует на одном и том же поколении.

rkudiyarov 14 июл 2010 в 03:43

используйте С++ wrapper(cl.hpp) для вызовов OpenCL функций на хосте, на порядок удобнее и меньше писанины. Можно найти на сайте хроноса.

afaber 14 июл 2010 в 03:54

А с DirectCompute не сравнивали?

jmistx 14 июл 2010 в 07:58

Как ни прискорбно, но нет.
Согласен, было бы интересно.

alecksey 14 июл 2010 в 10:34

Насколько я помню на ATI картах официальная поддержка OpenCL начинается с HD 5xxx
Так что лучше было брать 5-ю линейку данных видеокарт.

jmistx 14 июл 2010 в 10:48

официальная поддержка OpenCL начинается с HD 5xxx

На страничке ATI Stream SDK в графе Supported Cards карты 4xxx серии стоят с пометкой Beta Support.

Карты пятитысячной серии на руках пока нет.

pavel_kudinov 2 авг 2010 в 18:28

Симпатично выглядит! Демкой exe'шной не поделитесь?

mikhanoid 17 мая 2011 в 09:14

Про VLIW — странное утверждение. Какая ему разница, считается скалярное произведение в шейдере или же в OpenCL программе? И вообще, не плохо бы было показать исходники, а то когда о тестировании пишется с некими циферками, хотелось бы понимать, а к чему именно эти циферки относятся. Может, там вообще всё можно ещё в 10 раз быстрее сделать?

mikhanoid 17 мая 2011 в 09:14

Как бы, github и bitbucket существуют, проблем с выкладыванием не должно быть.

НЛО прилетело и опубликовало эту надпись здесь

Marchevsky 17 апр 2012 в 13:14

Очень полезная статья, спасибо. Хотелось бы видеть новые сравнения.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий