Комментарии 6
😾
Сообщения в мобильной версии хабра сломали, поэтому напишу тут.
5,7 ГГц 4 инструкции
У вас тут, как будто бы, звёздочка в курсив превратилась
С чтением из памяти понятно, а вот как выгоднее писать? Когда все ядра пишут в одну область памяти или в разные? Допустим, чтение и запись не перекрываются.
Это все конечно интересно, но кому и как продать эти знания.
Допустим, если вам требуется 150 регистров, чтобы кэшировать некоторые данные, то разделите 65536 на 150 – и получится, что вы можете воспользоваться 436 потоками.
Нет, не совсем так. Мы можем запускать потоки в параллель только целыми варпами. Сколько конкретно варпов в параллель получается, зависит не только от используемых регистров, но и от объёма использованной shared memory и меняется от поколения к поколению (а ещё в Nvidia можно увеличивать объём shared memory за счёт кеша L1 и наоборот). Проще всего посмотреть на occupancy diagram в профайлере Nvidia Nsight.
Обзор CUDA: сюрпризы с производительностью