Комментарии 12
можно было ещё попробовать cuda, не знаю наскольно оно совместимо с старыми gpu, но в новостях мелькал rocm-cuda "эмулятор"
p.s. ещё нашёл такой вариант vuda (VUDA — это библиотека, состоящая только из заголовочных файлов, основанная на Vulkan, которая предоставляет интерфейс API среды выполнения CUDA для написания приложений с ускорением на графическом процессоре. )
Изначально хотел взять именно cuda как индустриальный стандарт, но вероятно, подружить старую AMD-видеокарту, которая и родным ROCm-ом уже поддерживается только со свистоплясками, с NVIDIA-ориентированным cuda было бы еще сложнее
Если будет запрос и найду теоретическое подтверждение такой возможности - с радостью выпущу вторую часть этой эпопеи с cuda
То есть вы прямо сразу без локальных тестов (без K8S) стали всё тестировать на K8S??? то есть не выбираем лёгкий путь?
8GB VRAM
Зачем так мучиться с амд гпу если 8 ГБ быстро работают и на проце.
На этой карте, как и например на картах нвидия 1000 серии нет тензорных ядер, что делает невозможным ускорение квантованных моделей. Запустить можно, но производительность будет боль и печаль. Запускать же крошечные модели в q8 на 8гб нет особого смысла тк они глуповатые.
Автор, тебе будет лучше купить любую карту с тензорными ядрами типа 2060 супер на те же 8 гб vram. Затем взять moe модель типа qwen 3.5 a3b и запустить ее в кванте на 3-4 бита. Тензорные ядра (пусть даже первой версии у 2060) дают возможность ускорять умножение для тех самых квантованных чисел в 3-4 бита. Сам роутер модели займет 4 гб vram плюс output слой плюс kv кеш на 48к контекста и суммарно выйдет 7 гб vram. В итоге ты получишь адекватные 30 тс инпут и 5 тс аутпут. Никаких других более бюджетных решений не существует. Я пробовал даже майнинговые карты и там все плохо.

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference