Справочник по применению GPU в машинном обучении / Comments / Habr

@Armmaster Jun 5 2024 at 17:08

Мы выполняем матричное умножение по этим меньшим тайлам в локальной общей памяти, которая является быстрой и близкой к потоковому мультипроцессору (SM) - эквиваленту ядра CPU. С тензорными ядрами мы идем на шаг дальше: мы берем каждый тайл и загружаем часть этих тайлов в тензорные ядра, к которым напрямую обращаемся через регистры. Тайлы матричной памяти в кэше L2 в 3-5 раз быстрее памяти GPU (GPU RAM), которая в ~7-10 раз быстрее оперативной, а регистры тензорных ядер в ~200 раз быстрее оперативной памяти.

тут что-то очень странное написано, похоже, при переводе смысл потерялся. В оригинале фраза "A matrix memory tile in L2 cache is 3-5x faster than global GPU memory (GPU RAM), shared memory is ~7-10x faster than the global GPU memory " имеет смысл, что shared mem (локальная общая память в терминологии статьи) быстрее GPU RAM в ~7-10 раз.

в то время как NVIDIA пока не имеет публичных планов по созданию таких чипов

Однако отсутствие тензорных ядер или их эквивалентов делает их производительность в глубоком обучении низкой по сравнению с GPU NVIDIA. Математика с низкой точностью не подходит. Без этой аппаратной функции GPU AMD никогда не будут конкурентоспособными. По слухам, некая карта для центров обработки данных с эквивалентом Tensor Core запланирована на 2020 год, но с тех пор никаких новых данных не появилось

Статья датируется 2023-им годом, когда у AMD уже давно есть тензорные ядра, а у Nvidia в планах чиплетный Blackwell. Причём в тексте упоминаются планы на 2020-ый год, т.е. данный текст был написан ранее. Резюмируя, в статье много устаревшей информации, с какими-то наслоениями более поздных правок, когда зачастую даже непонятно, к какому времени относится такие утверждения. В итоге, местами получается каша.

Справочник по применению GPU в машинном обучении

Comments 2

Articles