Комментарии 2
Мы выполняем матричное умножение по этим меньшим тайлам в локальной общей памяти, которая является быстрой и близкой к потоковому мультипроцессору (SM) - эквиваленту ядра CPU. С тензорными ядрами мы идем на шаг дальше: мы берем каждый тайл и загружаем часть этих тайлов в тензорные ядра, к которым напрямую обращаемся через регистры. Тайлы матричной памяти в кэше L2 в 3-5 раз быстрее памяти GPU (GPU RAM), которая в ~7-10 раз быстрее оперативной, а регистры тензорных ядер в ~200 раз быстрее оперативной памяти.
тут что-то очень странное написано, похоже, при переводе смысл потерялся. В оригинале фраза "A matrix memory tile in L2 cache is 3-5x faster than global GPU memory (GPU RAM), shared memory is ~7-10x faster than the global GPU memory " имеет смысл, что shared mem (локальная общая память в терминологии статьи) быстрее GPU RAM в ~7-10 раз.
в то время как NVIDIA пока не имеет публичных планов по созданию таких чипов
и
Однако отсутствие тензорных ядер или их эквивалентов делает их производительность в глубоком обучении низкой по сравнению с GPU NVIDIA. Математика с низкой точностью не подходит. Без этой аппаратной функции GPU AMD никогда не будут конкурентоспособными. По слухам, некая карта для центров обработки данных с эквивалентом Tensor Core запланирована на 2020 год, но с тех пор никаких новых данных не появилось
Статья датируется 2023-им годом, когда у AMD уже давно есть тензорные ядра, а у Nvidia в планах чиплетный Blackwell. Причём в тексте упоминаются планы на 2020-ый год, т.е. данный текст был написан ранее. Резюмируя, в статье много устаревшей информации, с какими-то наслоениями более поздных правок, когда зачастую даже непонятно, к какому времени относится такие утверждения. В итоге, местами получается каша.
Да, верно. В статье есть список правок:
https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/#Version_History
Из них видно, что первый вариант статьи вышел в 2014, и она правилась вплоть до 2023 года...
Справочник по применению GPU в машинном обучении