Комментарии / Профиль KoppeKTop / Хабр

Как стать автором

Андрей @KoppeKTop

Пользователь

Профиль Публикации 8Комментарии 307Закладки 159

Новый виток архитектуры CUDA

KoppeKTop 28 мая 2012 в 01:45

Только раньше взять да и попробовать технологию(я про DP и H-Q) на обычном десктопе раньше можно было, а теперь нет

Увы, так было только до Fermi. В СС 2 появилось прямое копирование DeviceToDevice внутри машины без задействования CPU. Такой вот DMA по утверждению nVidia требует ECC, который только на Tesla присутствует. Вот и получилось — на Tesla фича есть, а на GTX — нет.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 28 мая 2012 в 01:38

Да, согласен. А если реализовывать семафор — проще уж ядра запускать.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 28 мая 2012 в 00:05

Да, картинка меня тоже заставила задуматься, но фраза о независимых инструкциях натолкнула именно на такую мысль.
Обидно, если это действительно лишь ILP, хотя это резонно предположить из-за того, что работу по распараллеливанию можно сделать ещё на этапе компиляции.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 23:53

Можно и 5.0 использовать)

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 20:43

__syncthreads действует только для потоков в одном блоке и нужна для синхронизации потоков при доступе к shared mem.
С СС 2.0 появилась ещё __threadfence_system, которая действует на все потоки в grid'е. А до этого да, только новое ядро и можно было запускать.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 19:36

Я это взял из whitepaper'а GK110:

two independent instructions per warp can be dispatched each cycle.

Впрочем, это не исключает и instruction-level parallelism.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 19:29

Да, конечно. Запустить профайлер – это самое правильное. Остальное – гадание с пустым нагревом воздуха)

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 19:21

GK110 обещают ближе к концу года. А что до стоимости, то такие решения никогда не стоили дёшево. Основной упор на то, что ты получаешь мощную железяку, которая работает быстро, надёжно, кушает мало, её можно подоткнуть к какому-нибудь лезвию и использовать 24/7. Из всего этого у GTX есть только скорость. Ну и подключить её тоже можно. Поэтому она и стоит дешевле. Не энтерпрайз и не продакшн уровень.
Что до OpenCL – тут могу только мышек с кактусами вспомнить. Стандарт он на то и стандарт чтобы развиваться медленно. С таким отставанием от текущего развития CUDA я запросто согласен на vendor-lock. Тем более у AMD всё равно нет аналогов Tesla. Возможность программировать на CPU также неудобно как на GPU считаю верхом непрактичности. Слышал ещё про x86-CUDA, которая позволяет использовать CPU как графический расчётный модуль. Но зачем? Другая архитектура, другие принципы оптимизации, всё совсем другое. Люди не используют CUDA, если на то нет большой нужды. Если нет подходящей под эту архитектуру задачи.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 19:09

Круто. В тайне надеялся на такое и очень рад, что именно так и будет.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 19:07

На 1 MP в SMX приходится 192 SP. То есть до 6 варпов. Планировщиков 4 и каждый может запускать по 2 инструкции одновременно. На 1 SMX может быть до 16 блоков (если они не используют много регистров и shared памяти) и до 64 варпов. При заполнении 1 block/SMX загрузка практически никогда не будет полной по одной простой причине: если идёт чтение из памяти, то варп засыпает и ждёт пока не придёт результат. Варпы одного блока бегут «близко» друг к другу и поэтому висят и ждут ответа одновременно. Поэтому нужно загружать SMX сразу несколькими блоками, чтобы эту latency покрыть и пока одни висят, другие дробят числа.
Я не знаю точно, какая задача запускалась и возможно она просто имела много операций с double и как в этих задачах поведёт себя 680 я сказать не могу. Всегда считаю только в int и float.
И ещё, 16К потоков для CUDA это как-то несерьёзно. Это же fine-grained параллелизм, в идеале каждый thread должен обрабатывать одну единицу информации.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 16:10

Связь очень простая. Раньше (в до-Fermi время), действительно на 1 MP запускался 1 warp. Если быть ещё точнее, то сначала выполнялись первый полуварп, а потом второй. Сейчас на одном MP есть несколько планировщиков потоков и они запускают одновременно несколько варпов (до 4), возможно даже из нескольких блоков.

0

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 11:34

Warp — 32 потока, которые исполняют одну и ту же или пару инструкций.

+2

Посмотреть

Новый виток архитектуры CUDA

KoppeKTop 27 мая 2012 в 09:31

Тут явно просится повторная оптимизация. Увеличение FLOPS/Вт произошло не на пустом месте. Кроме перехода на техпроцесс 28 нм, была существенно снижена частота потоковых процессоров. Раньше они работали на удвоенной частоте, а теперь используют обычную частоту ядра. Роста FLOPSов добились увеличением количества процессоров. Если посмотреть, то количество процессоров утроилось, частота ядра выросла ещё в полтора раза по сравнению с Fermi. А вот FLOPSы только удвоились (хотя должны были увеличиться в 4,5 раза).
Поэтому сами процессоры стали ещё медленней и фокус оптимизации должен быть смещён на максимальную загрузку всех 1536 SP в GPU. Возможно в задаче создаётся слишком мало блоков? Или блоки слишком тяжеловесные (используют много регистров на поток). Тогда их будет помещаться меньше на SMX. Для Kepler во многих задачах регистров нужно использовать меньше, а больше уповать на кэширование и использование read only кэша.
Короче, при всех новых фишках – для HPC по-прежнему нужно хорошо знать подноготную архитектуры, которая с каждым годом становится всё более развесистой. Без этого использовать CUDA на всю катушку не получится.

+3

Посмотреть

Новый iPad против Acer Iconia Tab и BlackBerry PlayBook

KoppeKTop 10 мая 2012 в 17:41

Думаю про это уже писали и не раз… Если для старых iPod'ов протокол среверсили и сделали программы для синхронизации под все платформы, то iOS – тёмный лес.
Реакция будет только в одном случае – если пользователей Linux на десктопах будет хоть сколько нибудь значимое количество. А пока – либо виртуалка, либо может быть wine (не знаю, насколько это возможно)

0

Посмотреть

Новый iPad против Acer Iconia Tab и BlackBerry PlayBook

KoppeKTop 10 мая 2012 в 17:30

С iPad я давно обхожусь без iTunes и даже без компа. Правда в плане видео – только благодаря NAS Synology и его возможности скачивать торренты. Хотя видео можно смотреть онлайн (youtube + vk).
Для книг – iBooks (художка) + Amazon Kindle (купленные и на английском) + GoodReader (PDF с возможностью кропа, быстрой прорисовкой и прочими плюшками) + Stanza (DjVu).
Для видео – AVPlayer, OPlayer, AirPlayer (DLNA в Synology).
Музыку не слушаю. Только иногда дома можно включить DS Audio и постримать с NAS.
Короче, к компу уже давно планшет не подключал.

0

Посмотреть

Новый iPad против Acer Iconia Tab и BlackBerry PlayBook

KoppeKTop 10 мая 2012 в 17:18

К сожалению… Сам мучился с тунцом в виртуалке пока сидел под линуксом… Синхронизация шла оооочень медленно.

0

Посмотреть

Новый iPad против Acer Iconia Tab и BlackBerry PlayBook

KoppeKTop 10 мая 2012 в 17:15

Честно говоря, вообще не сталкивался с такой проблемой. Храню пароли в 1password и оттуда уже копирую в браузер. Или использую встроенный браузер 1password, который сам введёт логин/пароль когда нужно.
+ генерируются сильные пароли
+ синхронизация между всеми устройствами (через дропбокс, например)
+ плагины к браузерам для автоматического заполнения паролей на компьютере (ну, к iOS это уже не относится, но для меня это было просто очень круто).
Короче, 1Password искренне советую для устранения головных болей с паролями.
Минус только один – нет версии для Linux. Для OS X, Win, Android и iOS – версии есть.

0

Посмотреть

Новый iPad против Acer Iconia Tab и BlackBerry PlayBook

KoppeKTop 10 мая 2012 в 17:00

Была та же история со Stanza. Она потом обновилась и снова заработала. Правда по отзывам она теперь работает только на iOS 5).
DjVu читаю только в ней.

0

Посмотреть

Машинки на чистом SVG

KoppeKTop 28 апр 2012 в 10:35

Эх, Safari 5.1.5 (7534.55.3), OS X 10.7.3 – рисует только дороги.

0

Посмотреть

Робот Petman научился подниматься по ступенькам

KoppeKTop 12 апр 2012 в 23:48

Быстрая походка и взгляд безумный – поэтому его называют Чугунный.

+2

Посмотреть

5

6 7 ...