Графические процессоры теперь могут использовать память, подключённую к PCIe, или твердотельные накопители для увеличения ёмкости видеопамяти. При этом задержка составит наносекунды.

Компания Panmnesia, поддерживаемая известным южнокорейским исследовательским институтом KAIST, разработала CXL IP с малой задержкой, которую можно использовать для расширения памяти GPU с помощью CXL.

Современные графические процессоры для приложений искусственного интеллекта и высокопроизводительных вычислений поставляются с ограниченным объёмом встроенной в устройство памяти с высокой пропускной способностью (HBM). Это ограничивает их производительность. Однако новая технология позволит компаниям расширить объём памяти графического процессора, подключая накопители к шине PCIe. 

Хотя CXL — это протокол, который формально работает поверх канала PCIe, что позволяет пользователям подключать больше памяти к системе через шину PCIe, технология должна распознаваться ASIC и её подсистемой, поэтому недостаточно просто добавить контроллер CXL. 

Panmnesia столкнулась с трудностями при интеграции CXL из-за отсутствия логической структуры протокола и подсистем, поддерживающих конечные точки DRAM и/или SSD в графических процессорах. Кроме того, подсистемы кэша и памяти GPU не распознают никаких расширений, кроме унифицированной виртуальной памяти (UVM). 

Для решения этой проблемы компания разработала корневой комплекс (RC), соответствующий CXL 3.1. Он оснащён несколькими корневыми портами (RP) с поддержкой внешней памяти через PCIe и хост-мостом с декодером памяти устройства, управляемого хостом (HDM), который подключается к системной шине графического процессора. Декодер HDM, отвечающий за управление диапазонами адресов системной памяти, по сути, заставляет подсистему памяти «думать», что она имеет дело с системной памятью, но на самом деле используется подключённая к PCIe DRAM или NAND. Это означает, что для расширения пула памяти графического процессора можно использовать либо DDR5, либо твердотельные накопители. 

Решение, основанное на специальном графическом процессоре и отмеченное как CXL-Opt, прошло тщательное тестирование, показав наносекундную задержку по сравнению с 250 нс у прототипов Samsung и Meta*. Его успешно интегрировали как в расширители памяти, так и в прототипы графического процессора/ЦП на аппаратном уровне, чтобы показать совместимость с разным вычислительным оборудованием. 

По данным Panmnesia, CXL обеспечивает прямой доступ к расширенному хранилищу с помощью инструкций загрузки/сохранения. Время выполнения CXL-Proto в 1,94 раза меньше, чем UVM, а CXL-Opt от Panmnesia сокращает время выполнения в 1,66 раза благодаря оптимизированному контроллеру. Результаты показывают, что CXL-Opt обеспечивает производительность в 3,22 раза и в 1,65 раза быстрее, чем UVM и CXL-Proto от Samsung и Meta соответственно.

В целом, поддержка CXL может улучшить работу графических процессоров AI/HPC, но их производительность остаётся под большим вопросом. Кроме того, пока неизвестно, добавят ли такие компании, как AMD и Nvidia, поддержку CXL в свои продукты.

*Meta Platforms признана экстремистской организацией, её деятельность в России запрещена.