MaxFX25 мар 2009 в 09:02

CUDA: Работа с памятью. Часть I.

12 мин

77K

GPGPU *

+22

Комментарии 22

PSHKGRZN 25 мар 2009 в 09:24

Интересная статья! Подписался на блог.
Максим на какой видеокарте вы тестируете?

MaxFX 25 мар 2009 в 09:28

Ноутбучная GeForce 9600M GS. До домашнего десктопа все руки не доходят в последнее время.

Q2W 25 мар 2009 в 09:55

> В своем примере я не учитываю время копирования данных с хоста на девайс и обратно
А если учитывать, то в тех же тестах сколько оно займёт?

MaxFX 25 мар 2009 в 10:07

Если это учесть, то в среднем: 420 мс, 138 мс, для 1 и 2 случая соотвественно.

pingwinator 25 мар 2009 в 10:27

зловещий холивар подниму, но всёже интересно есть ли разница в производительности cuda в линуксе и в венде? слышал что дрова под венду постабильнее будут

MaxFX 25 мар 2009 в 10:54

У nvidia драйвера под все ОСи высокого качества. Думаю, разница в производительности минимальна. На выходных пойду к знакомому, хочу у него под MacOS CUDA-программы погонять, если удасться, то выложу сравнение.

pingwinator 25 мар 2009 в 10:29

и ещё вопрос про память — вот например у моём ноуте 9300 там 128 на борту и до 512 может кушать с озу. я так понимаю, лутше не откусывать?

MaxFX 25 мар 2009 в 10:57

Если много ОЗУ, то можно и откусить. Хотя стандартная ОЗУ не такая быстрая как родная память видеокарты.

chetzof 25 мар 2009 в 11:54

А как-же ATI? У них есть свой «ответ»?

pingwinator 25 мар 2009 в 12:59

есть ati.amd.com/technology/streamcomputing/

pingwinator 25 мар 2009 в 13:13

и у интел ест нечто похожее, но только неясно в какой стадии
intel.com/go/Ct

chetzof 25 мар 2009 в 13:27

И они совместимы? Или опять будут игры «специально оптимизированные для nvidia» и «специально для amd ati»?

*наверное чепуху спорол, ибо совсем не смыслю в этом деле.

pingwinator 25 мар 2009 в 13:32

несовместимы и будут отдельно под то и под то.
а что мешает сделать некую библиотеку и которая будет некой прослойкой между этими технологиями? и эту либу запихнуть в директХ или опенГЛ. конечно производительность падать будет, зато универсально

GnaeusPompeius 26 мар 2009 в 13:43

Такое планируют сделать в DirextX 11

pingwinator 26 мар 2009 в 14:19

а ну в принципе я был прав :)

Halt 26 мар 2009 в 20:51

Когда выйдет OpenCL, это уже не будет иметь значения :) По крайней мере ТАКОГО.

BarsMonster 26 мар 2009 в 14:58

А на CPU SSE инструкции использовались? ;-)

Halt 26 мар 2009 в 20:57

Думаю что нет. Насколько я понял цель была показать сравнение чисто процового итеративного вычисления и кудовского.

Halt 26 мар 2009 в 21:06

Тем более не совсем понимаю, как применить SSE именно для задачи транспонирования.

jawbreaker 26 мар 2009 в 15:01

Отличная статья!
P.S. А где вы такие красивые картинки берёте?

MaxFX 27 мар 2009 в 05:17

Обычно, делаю сам, кое-что из официальной документации от nVidia (например, виды памяти видеокарты).

greg_fat 19 июл 2013 в 16:03

Отличная статья! Подскажите, почему Вы xIndex и yIndex вычисляете два раза, до и после синхронизации? И почему idx вычисляете по разному? Я про пример с shared памятью.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий