Как стать автором
Обновить

Комментарии 6

Сообщения в мобильной версии хабра сломали, поэтому напишу тут.

5,7 ГГц 4 инструкции

У вас тут, как будто бы, звёздочка в курсив превратилась

Что-то и правда личка поломалась — надеюсь, починят как можно скорее.

С чтением из памяти понятно, а вот как выгоднее писать? Когда все ядра пишут в одну область памяти или в разные? Допустим, чтение и запись не перекрываются.

Это все конечно интересно, но кому и как продать эти знания.

Допустим, если вам требуется 150 регистров, чтобы кэшировать некоторые данные, то разделите 65536 на 150 – и получится, что вы можете воспользоваться 436 потоками.

Нет, не совсем так. Мы можем запускать потоки в параллель только целыми варпами. Сколько конкретно варпов в параллель получается, зависит не только от используемых регистров, но и от объёма использованной shared memory и меняется от поколения к поколению (а ещё в Nvidia можно увеличивать объём shared memory за счёт кеша L1 и наоборот). Проще всего посмотреть на occupancy diagram в профайлере Nvidia Nsight.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации