Pull to refresh

Comments 23

PCIe обладает низкой пропускной способностью для использования памяти

PCIe Gen5x16 примерно как 1-2 планки DDR5 по пропускной способности. Но, конечно, медленнее, чем специализированная память GPU. Однако, Gen7 уже будет сравнимо с встроенной памятью GPU.

Но, это не так важно. Тут решение, как раз, походу, предлагается для случаев, когда объем важнее пропускной способности. Они там даже SSD прикрутили.

Только этот SSD не связан с памятью видеокарты, а просто прокинут в систему через pcie switch.

Ну почему же. Судя по вике скорость GDDR7 - 36 ГТ/с, в тоже время PCIe Gen5x16 выдает 32 ГТ/с. Т.е. шина почти вытаскивает (GDDR7 вообще еще редкость, насколько я знаю). Не вытаскивает DDR5 память такие скорости.

Вы слегка упустили, что это 32 ГТ/с на pin "32 Gbps per pin".

А пропускная способность памяти составляет вплоть до 1.5 TB/s. Судя по той же ссылке на вики.

Pcie до этой цифры как до луны. И не забывайте, что видеокарте все ещё нужны линии для доступа непосредственно до всей остальной системы

У GDDR6 это 16 ГТ/с

https://semiconductor.samsung.com/dram/gddr/gddr6/

Спасибо за поправку, все так!

Не подумайте ничего плохого, но я всегда говорил, что надо так сделать, что раньше мешало...

То же, что и сейчас: дикие задержки и низкие скорости (по сравнению с распаянными чипами) делают такую память очень узкоспециализированной. Чипы GDDR не просто так расположены максимально близко к ядру.

Ну если выбор между "Нихрена не работает" и "Работает звездецки медленно", то я всё же выберу второе.

Для этих вариантов относительно недавно консьюмерам разрешили свопить VRAM в ОЗУ. Задержки там сравнимые, скорость скорее всего даже выше.

Смотря какую VRAM свопить. На моём GPU используется 16Gb HBM 2. Расширение объёма за счёт оперативки (128 Gb DDR IV) резко замедляет работу.

Само-собой. А этот костыль будет замедлять работу еще сильнее, чем swap в ram, к тому же потребует писать дополнительные костыли в софте (загружать модели частично в RAM и частично в VRAM сейчас вроде умеет весь релевантный софт). Колдовать с разделением того, что нужно класть в "быструю" память, а что в "медленную", придется отдельно. А уж если использовать предложенную логику с NVME дисками в качестве памяти:

поддерживающих конечные точки DRAM и/или SSD в графических процессорах

...то там скорость вообще смеховторна, и не дотягивает даже до скорости DDR3: топовые SSD едва обгоняют DDR2 (6.4 GB/s) и то о стабильности такой скорости там речи не идет.

Скорость распаянной GDDR6X - 912-1152 GB/s. Опять же, повторюсь: чипы памяти не просто так распаяны максимально близко к ядру. Таким образом достигается максимальная скорость при минимальных задержках, когда имеет значение даже длина дорожек на плате. Нет никаких интерфейсов, способных такую скорость обеспечить при внешнем подключении. Предложенные в статье способы медленнее DDR4 (без G).

Вопрос: зачем? Какая-то очень узкоспециализированная задача, которая уже висит и в RAM, и в VRAM, и мы пытаемся подключить еще стороннюю память, но при этом удовлетворяемся скоростями DDR2? Такие есть? И почему их просто не решить увеличением количества RAM?

Я полагаю, что для каких-нибудь десятков терабайт "VRAM" может пригодится нечто подобное, но опять же - вы этими данными будете ворочать со скоростью SSD диска. Явно замах куда-то не туда, тут уж будьте добры изучать ассортимент DGX: оно за часы решит то, что подобное поделие будет в памяти перекладывать месяцами.

Хочу обратить внимание, что я не просто так "засираю" дешевое решение. Оно просто, на мой взгляд, ничего не решает. Условный эксперимент с L4 на Broadwell хотя бы выдавал скорость быстрее DDR3 (и закономерно умер, когда вышла DDR4 быстрее него). Предложенная в статье схема тупо хуже обычного swap в RAM. Или я чего-то не понимаю?

Нет никаких интерфейсов, способных такую скорость обеспечить при внешнем подключении. 

Оптоволокно? Если брать инфу из https://habr.com/ru/news/669280/

В итоге полоса пропускания четырёхжильного оптического кабеля выросла с 13,8 ТГц до 20 ТГц.

В теории это 2.500 GB/s и 2.5 наносекунды задержка при длине 0.5 метра

В теме не шарю, расчеты сделал чат-гпт

У меня есть подозрение, что вундервафля на оптоволокне, которая потянет 2500 GB/s, будет сильно дороже даже DGX. И все еще не понятно, что подключать как хранилище к ней. Уж не SSD же? :)

Что подключать уже вопрос вторичный, первичный был про внешние интерфейсы способные обеспечить нужную пропускную способность. Подключить можно расширительную плату с кучей быстрой памяти и своим охлаждением, необходимость близко располагать память к ядру уже становится не столь важным. А рентабельность это уже третичный вопрос))

Это не имеет смысла. Оптоволокно хорошо, когда дистанции большие и задержки конвертирования информации в свет и обратно меркнут перед выигрышем по скорости. Тут же в пределах двух плат передача информации и задержка на конвертацию сведёт преимущества на 0, если не в минус.

А ещё эти самые преобразователи греются — слишком много всего в компе будет греться

топовые SSD едва обгоняют DDR2 (6.4 GB/s)

В линейных скоростях, массивами крупных данных. И в каких сценариях рендеринга или иных вычислений можно делать ставку именно на такие чтение / запись? Всё же это совершенно разные вещи и сравнивать хоть топовые, хоть ультра-мега-топовве SSD с DDR (любого поколения) смысла нет никакого. В реальном сценарии мелкоблочная запись и чтение у SSD всё равно многократно ниже. Так что производителям видеокарт лучше было бы распаивать слоты для энергозависимой памяти прямо на видеокартах. В качестве промежуточного буфера даже DDR4 прямо на борту видеокарты будет намного быстрее чем это сейчас может делать WDDM через PCI-E. Но тут маркетологи удавятся

В линейных скоростях, массивами крупных данных. И в каких сценариях рендеринга или иных вычислений можно делать ставку именно на такие чтение / запись?

В реальном сценарии мелкоблочная запись и чтение у SSD всё равно многократно ниже.

Все эти попытки получить больше хоть какой-то памяти нужны ровно для 1 цели - LLM.

Когда одна 4090 может в легкую обучить большую языковую модель, но ей просто не хватает памяти для этого, и приходиться арендовать пул H100 за дофига денег - то естественно будут попытки найти другое решение.
Тоже касается и инференса моделей. В обоих случаях важная быстрая линейная скорость.

Статья как раз о том, что предлагается новое решение, которое по задержкам раза в два-три быстрее чем свопинг VRAM в RAM.

Хммм, ну тогда надо ждать бенчмарков в реальных сценариях, а не в синтетике. Но я думаю, что NVIDIA точно не возбудится на такую инициативу.

И NVIDIA такая "ага ага, щас бежим спотыкаясь, сделаем чтоб нельзя было продавать те же видеокарты второй раз с увеличенным объёмом памяти и приставкой SUPER"

Интересно что там с циклами записи...

Ещё один шаг к виртуальной машине на GPU — это хорошо

Sign up to leave a comment.

Other news