YH7H2219 мая в 09:04

Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться

Средний

3 мин

7.9K

Машинное обучение *

+10

Комментарии 4

DooKoo2 19 мая в 09:20

Статья интересная, но написано МАЛО! Не написал про warp aggregation и как оно завязано на работу с памятью, register pressure, почему большой трафик флоу между VRAM и кристаллом чипа может спалить популярную GDDR6x, чем отличается shared memory от local memory и почему они вообще существуют.

А вообще со статье согласен, в LLM (да и не только на самом деле) compute выгодно менять на memory. То есть иногда стоит не брать значения из памяти и тянуть на кристалл, а заново пересчитать кусок данных из переменных в регистрах, потому что так быстрее.

Fora_Soft 20 мая в 05:40

Тезис про «VRAM - это холодный склад» это точное наблюдение, особенно на фоне того, что Hopper и Blackwell добавили в эту иерархию ещё один уровень (TMA + distributed shared memory), и теперь «горячих» уровней даже больше, чем кажется. Стоит упомянуть простую интуицию для тех, кто только начинает читать про оптимизацию ядер: посчитайте арифметическую интенсивность (FLOP/byte) своей операции и сравните с пределом производительности вашей карты. Если интенсивность ниже точки перегиба - вы ограничены пропускной способностью памяти, и ничего не поможет, пока вы не уменьшите обмен с видеопамятью.

melodictsk 20 мая в 10:44

Именно поэтому добавление параллельных потоков в ллм почти не просаживает скорость. Можно на той же видюхе запустить параллельно несколько рассуждений и кратно увеличить суммарную скорость по токенам. Пока в кэш влазит.

evil_HFT 20 мая в 21:37

>SRAM (~~Shared~~ Memory)

Static RAM

Зарегистрируйтесь на Хабре, чтобы оставить комментарий