maybe_elf Jul 3 2024 at 08:47

GPU «научили» использовать подключённую по PCIe память

2 min

9.2K

CPUHigh performance * Artificial IntelligenceData storage *

+11

Comments 24

dimka11 Jul 3 2024 at 09:48

PCIe обладает низкой пропускной способностью для использования памяти

dorne Jul 3 2024 at 10:11

PCIe Gen5x16 примерно как 1-2 планки DDR5 по пропускной способности. Но, конечно, медленнее, чем специализированная память GPU. Однако, Gen7 уже будет сравнимо с встроенной памятью GPU.

Но, это не так важно. Тут решение, как раз, походу, предлагается для случаев, когда объем важнее пропускной способности. Они там даже SSD прикрутили.

Dante4 Jul 12 2024 at 20:21

Только этот SSD не связан с памятью видеокарты, а просто прокинут в систему через pcie switch.

martyncev Jul 3 2024 at 10:17

Ну почему же. Судя по вике скорость GDDR7 - 36 ГТ/с, в тоже время PCIe Gen5x16 выдает 32 ГТ/с. Т.е. шина почти вытаскивает (GDDR7 вообще еще редкость, насколько я знаю). Не вытаскивает DDR5 память такие скорости.

Dante4 Jul 12 2024 at 20:15

Вы слегка упустили, что это 32 ГТ/с на pin "32 Gbps per pin".

А пропускная способность памяти составляет вплоть до 1.5 TB/s. Судя по той же ссылке на вики.

Pcie до этой цифры как до луны. И не забывайте, что видеокарте все ещё нужны линии для доступа непосредственно до всей остальной системы

У GDDR6 это 16 ГТ/с

https://semiconductor.samsung.com/dram/gddr/gddr6/

martyncev Jul 14 2024 at 07:45

Спасибо за поправку, все так!

ZEvS_Poisk Jul 3 2024 at 09:58

Не подумайте ничего плохого, но я всегда говорил, что надо так сделать, что раньше мешало...

nidalee Jul 3 2024 at 10:23

То же, что и сейчас: дикие задержки и низкие скорости (по сравнению с распаянными чипами) делают такую память очень узкоспециализированной. Чипы GDDR не просто так расположены максимально близко к ядру.

mazagama Jul 3 2024 at 10:25

Ну если выбор между "Нихрена не работает" и "Работает звездецки медленно", то я всё же выберу второе.

nidalee Jul 3 2024 at 11:26

Для этих вариантов относительно недавно консьюмерам разрешили свопить VRAM в ОЗУ. Задержки там сравнимые, скорость скорее всего даже выше.

maremman Jul 3 2024 at 14:47

Смотря какую VRAM свопить. На моём GPU используется 16Gb HBM 2. Расширение объёма за счёт оперативки (128 Gb DDR IV) резко замедляет работу.

nidalee Jul 3 2024 at 14:59

Само-собой. А этот костыль будет замедлять работу еще сильнее, чем swap в ram, к тому же потребует писать дополнительные костыли в софте (загружать модели частично в RAM и частично в VRAM сейчас вроде умеет весь релевантный софт). Колдовать с разделением того, что нужно класть в "быструю" память, а что в "медленную", придется отдельно. А уж если использовать предложенную логику с NVME дисками в качестве памяти:

поддерживающих конечные точки DRAM и/или SSD в графических процессорах

...то там скорость вообще смеховторна, и не дотягивает даже до скорости DDR3: топовые SSD едва обгоняют DDR2 (6.4 GB/s) и то о стабильности такой скорости там речи не идет.

Скорость распаянной GDDR6X - 912-1152 GB/s. Опять же, повторюсь: чипы памяти не просто так распаяны максимально близко к ядру. Таким образом достигается максимальная скорость при минимальных задержках, когда имеет значение даже длина дорожек на плате. Нет никаких интерфейсов, способных такую скорость обеспечить при внешнем подключении. Предложенные в статье способы медленнее DDR4 (без G).

Вопрос: зачем? Какая-то очень узкоспециализированная задача, которая уже висит и в RAM, и в VRAM, и мы пытаемся подключить еще стороннюю память, но при этом удовлетворяемся скоростями DDR2? Такие есть? И почему их просто не решить увеличением количества RAM?

Я полагаю, что для каких-нибудь десятков терабайт "VRAM" может пригодится нечто подобное, но опять же - вы этими данными будете ворочать со скоростью SSD диска. Явно замах куда-то не туда, тут уж будьте добры изучать ассортимент DGX: оно за часы решит то, что подобное поделие будет в памяти перекладывать месяцами.

Хочу обратить внимание, что я не просто так "засираю" дешевое решение. Оно просто, на мой взгляд, ничего не решает. Условный эксперимент с L4 на Broadwell хотя бы выдавал скорость быстрее DDR3 (и закономерно умер, когда вышла DDR4 быстрее него). Предложенная в статье схема тупо хуже обычного swap в RAM. Или я чего-то не понимаю?

t38c3j Jul 3 2024 at 18:34

Нет никаких интерфейсов, способных такую скорость обеспечить при внешнем подключении.

Оптоволокно? Если брать инфу из https://habr.com/ru/news/669280/

В итоге полоса пропускания четырёхжильного оптического кабеля выросла с 13,8 ТГц до 20 ТГц.

В теории это 2.500 GB/s и 2.5 наносекунды задержка при длине 0.5 метра

В теме не шарю, расчеты сделал чат-гпт

nidalee Jul 3 2024 at 18:52

У меня есть подозрение, что вундервафля на оптоволокне, которая потянет 2500 GB/s, будет сильно дороже даже DGX. И все еще не понятно, что подключать как хранилище к ней. Уж не SSD же? :)

t38c3j Jul 3 2024 at 19:29

Что подключать уже вопрос вторичный, первичный был про внешние интерфейсы способные обеспечить нужную пропускную способность. Подключить можно расширительную плату с кучей быстрой памяти и своим охлаждением, необходимость близко располагать память к ядру уже становится не столь важным. А рентабельность это уже третичный вопрос))

akhmed_sx Jul 4 2024 at 11:43

Это не имеет смысла. Оптоволокно хорошо, когда дистанции большие и задержки конвертирования информации в свет и обратно меркнут перед выигрышем по скорости. Тут же в пределах двух плат передача информации и задержка на конвертацию сведёт преимущества на 0, если не в минус.

А ещё эти самые преобразователи греются — слишком много всего в компе будет греться

NKulikov Mar 28 at 16:43

В DGXB200 NVL72 есть: NVLINK5 - 1,800GB/s per GPU (18 линков по 50GB/s). Для сравнения: HBM3e в B200 - 7TB/s. PCIe 5.0 x16 - 64GB/s. NVLINK5 Switch Chip - 72 NVLINK порта, т.е. 7.2TB/s. В NVLINK switch tray - 2 чипа, т.е 14.4TB/s. В DGXB200 NVL72 - 9 switch trays, т.е. ~130TB/s. Так что все DGX уже все давно есть. И заметно быстрее. P.S. Да, я в курсе, что там медь, а не оптика, но исключительно из соображений тепловыделения. Но фотонику для IB и Ethernet на 115Tb/s (144 порта по 800Gb) уже представили. Ссылки: https://www.nvidia.com/en-gb/networking/products/silicon-photonics/ + https://naddod.medium.com/nvidia-gb200-interconnect-architecture-analysis-nvlink-infiniband-and-future-trends-91dc6ba49bf3

Silvium Jul 4 2024 at 12:20

топовые SSD едва обгоняют DDR2 (6.4 GB/s)

В линейных скоростях, массивами крупных данных. И в каких сценариях рендеринга или иных вычислений можно делать ставку именно на такие чтение / запись? Всё же это совершенно разные вещи и сравнивать хоть топовые, хоть ультра-мега-топовве SSD с DDR (любого поколения) смысла нет никакого. В реальном сценарии мелкоблочная запись и чтение у SSD всё равно многократно ниже. Так что производителям видеокарт лучше было бы распаивать слоты для энергозависимой памяти прямо на видеокартах. В качестве промежуточного буфера даже DDR4 прямо на борту видеокарты будет намного быстрее чем это сейчас может делать WDDM через PCI-E. Но тут маркетологи удавятся

Shannon Jul 4 2024 at 15:44

В линейных скоростях, массивами крупных данных. И в каких сценариях рендеринга или иных вычислений можно делать ставку именно на такие чтение / запись?

В реальном сценарии мелкоблочная запись и чтение у SSD всё равно многократно ниже.

Все эти попытки получить больше хоть какой-то памяти нужны ровно для 1 цели - LLM.

Когда одна 4090 может в легкую обучить большую языковую модель, но ей просто не хватает памяти для этого, и приходиться арендовать пул H100 за дофига денег - то естественно будут попытки найти другое решение.
Тоже касается и инференса моделей. В обоих случаях важная быстрая линейная скорость.

dorne Jul 3 2024 at 18:57

Статья как раз о том, что предлагается новое решение, которое по задержкам раза в два-три быстрее чем свопинг VRAM в RAM.

nidalee Jul 3 2024 at 19:01

Хммм, ну тогда надо ждать бенчмарков в реальных сценариях, а не в синтетике. Но я думаю, что NVIDIA точно не возбудится на такую инициативу.

DrGluck07 Jul 4 2024 at 06:14

И NVIDIA такая "ага ага, щас бежим спотыкаясь, сделаем чтоб нельзя было продавать те же видеокарты второй раз с увеличенным объёмом памяти и приставкой SUPER"

Glen5 Jul 3 2024 at 13:27

Интересно что там с циклами записи...

VBDUnit Jul 4 2024 at 09:35

Ещё один шаг к виртуальной машине на GPU — это хорошо