Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 22

Интересная статья! Подписался на блог.
Максим на какой видеокарте вы тестируете?
Ноутбучная GeForce 9600M GS. До домашнего десктопа все руки не доходят в последнее время.
> В своем примере я не учитываю время копирования данных с хоста на девайс и обратно
А если учитывать, то в тех же тестах сколько оно займёт?
Если это учесть, то в среднем: 420 мс, 138 мс, для 1 и 2 случая соотвественно.
зловещий холивар подниму, но всёже интересно есть ли разница в производительности cuda в линуксе и в венде? слышал что дрова под венду постабильнее будут
У nvidia драйвера под все ОСи высокого качества. Думаю, разница в производительности минимальна. На выходных пойду к знакомому, хочу у него под MacOS CUDA-программы погонять, если удасться, то выложу сравнение.
и ещё вопрос про память — вот например у моём ноуте 9300 там 128 на борту и до 512 может кушать с озу. я так понимаю, лутше не откусывать?
Если много ОЗУ, то можно и откусить. Хотя стандартная ОЗУ не такая быстрая как родная память видеокарты.
А как-же ATI? У них есть свой «ответ»?
и у интел ест нечто похожее, но только неясно в какой стадии
intel.com/go/Ct
И они совместимы? Или опять будут игры «специально оптимизированные для nvidia» и «специально для amd ati»?

*наверное чепуху спорол, ибо совсем не смыслю в этом деле.
несовместимы и будут отдельно под то и под то.
а что мешает сделать некую библиотеку и которая будет некой прослойкой между этими технологиями? и эту либу запихнуть в директХ или опенГЛ. конечно производительность падать будет, зато универсально
Такое планируют сделать в DirextX 11
а ну в принципе я был прав :)
Когда выйдет OpenCL, это уже не будет иметь значения :) По крайней мере ТАКОГО.
А на CPU SSE инструкции использовались? ;-)
Думаю что нет. Насколько я понял цель была показать сравнение чисто процового итеративного вычисления и кудовского.
Тем более не совсем понимаю, как применить SSE именно для задачи транспонирования.
Отличная статья!
P.S. А где вы такие красивые картинки берёте?
Обычно, делаю сам, кое-что из официальной документации от nVidia (например, виды памяти видеокарты).
Отличная статья! Подскажите, почему Вы xIndex и yIndex вычисляете два раза, до и после синхронизации? И почему idx вычисляете по разному? Я про пример с shared памятью.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации