mr-pickles 6 мая 2024 в 08:00

Невероятно, но факт: умножение матриц на GPU идёт быстрее на «предсказуемых» данных

Средний

9 мин

13K

Блог компании Wunder FundВысоконагруженные системы*Алгоритмы*Серверное администрирование*

Перевод

+56

Комментарии 15

НЛО прилетело и опубликовало эту надпись здесь

sci_nov 6 мая 2024 в 10:53

В случае zero_inputs умножались нулевые матрицы? Если так, то это заведомо неверный бенчмарк.

Melirius 6 мая 2024 в 11:39

Почему? Алгоритм-то data-agnostic.

sci_nov 6 мая 2024 в 11:48

А что значит data-agnostic?

leshabirukov 6 мая 2024 в 12:25

Значит, он не заглядывает внутрь тензоров.

Но вообще да, автору бы следовало доказать, что он исключил все другие возможные причины. Типа где-то вкралась техническая поэлементная операция, реализованная через таблицу предпросмотра, - и появляется кеш с ключами по данным, одинаковые данные - нет промахов.

sci_nov 6 мая 2024 в 12:33

Всё равно не пойму.

Melirius 6 мая 2024 в 13:36

Алгоритм не зависит от данных внутри матриц: шаги одинаковые полностью, какие бы числа там не были. В этом коренное отличие от сжатия данных, например.

sci_nov 6 мая 2024 в 13:44

А, понял. Но компиляторы и процессоры сейчас это отдельные системы, которые могут творить чудеса)

sci_nov 6 мая 2024 в 12:34

Это почти то же самое как проверить производительность и корректность алгоритма сжатия на нулевых (или даже просто константных) данных.

DenSigma 7 мая 2024 в 04:04

Я не специалист в gpu-вычислениях. Но может, причина проще? Может, микроархитектура gpu-процессоров предусматривает проверку переменных на нули, и аппаратное умножение при этом не выполняется, сразу возвращается нуль? Тепловыделение при этом снижается и тактовая частота повышается. При сокращенном времени выполнении отдельных элементов матрицы, время выполнения обсчета всей матрицы обуславливается самым медленным элементом.

Aak6 7 мая 2024 в 07:39

Я специально не тестировал, но заметил что у меня вычисления с целыми числами в вещественном формате проходят вроде как быстрее, чем если у них есть какой-то хвост после запятой. Всегда казалось это естественным.

vanxant 7 мая 2024 в 11:19

Может, микроархитектура gpu-процессоров предусматривает проверку переменных на нули, и аппаратное умножение при этом не выполняется, сразу возвращается нуль?

Нет, тогда бы не было эффекта от использования целых чисел (из-за которого и началось расследование).

Нули в младших битах (целых чисел) приводят к тому, что фактически происходит умножение не 52-битных чисел (для double), а скажем всего лишь 20-битных. Т.е. больше половины разрядов просто не используется и всегда содержит нули. А динамическая часть потребляемой мощности тратится именно на переключение транзисторов из нуля в 1.

TedBeer 8 мая 2024 в 10:12

В статье же есть тест, когда матрицы заполнены числами пи и производительность такая же как с нулями или единицами. Так что ваша теория не верна.

Sasha113 13 мая 2024 в 05:45

При умножение целочисленных значений особенно с не большой амплитудой, умножение может быть ускоренно в несколько раз. Например можно в железе выполнять 2 умножения int8*int16 на железе предназначеном для int16*int16.

raamid 27 мая 2024 в 18:45

Может вычислитель (ALU) имеет свой собственный кеш где хранит результаты для часто встречающихся аргументов?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий