Sivchenko_translate17 апр 2025 в 11:25

Обзор CUDA: сюрпризы с производительностью

6 мин

18K

Программирование * C++ * Параллельное программирование * GPGPU * Алгоритмы *

Перевод

+51

Комментарии 6

НЛО прилетело и опубликовало эту надпись здесь

1dNDN 17 апр 2025 в 21:10

Сообщения в мобильной версии хабра сломали, поэтому напишу тут.

5,7 ГГц 4 инструкции

У вас тут, как будто бы, звёздочка в курсив превратилась

Boomburum 17 апр 2025 в 22:36

Что-то и правда личка поломалась — надеюсь, починят как можно скорее.

Hemml 18 апр 2025 в 11:54

С чтением из памяти понятно, а вот как выгоднее писать? Когда все ядра пишут в одну область памяти или в разные? Допустим, чтение и запись не перекрываются.

aniome 20 апр 2025 в 15:54

Это все конечно интересно, но кому и как продать эти знания.

Ktator 12 мая 2025 в 16:21

Допустим, если вам требуется 150 регистров, чтобы кэшировать некоторые данные, то разделите 65536 на 150 – и получится, что вы можете воспользоваться 436 потоками.

Нет, не совсем так. Мы можем запускать потоки в параллель только целыми варпами. Сколько конкретно варпов в параллель получается, зависит не только от используемых регистров, но и от объёма использованной shared memory и меняется от поколения к поколению (а ещё в Nvidia можно увеличивать объём shared memory за счёт кеша L1 и наоборот). Проще всего посмотреть на occupancy diagram в профайлере Nvidia Nsight.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий