Обновить

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.9K
Всего голосов 13: ↑13 и ↓0+15
Комментарии12

Комментарии 12

можно было ещё попробовать cuda, не знаю наскольно оно совместимо с старыми gpu, но в новостях мелькал rocm-cuda "эмулятор"

p.s. ещё нашёл такой вариант vuda (VUDA — это библиотека, состоящая только из заголовочных файлов, основанная на Vulkan, которая предоставляет интерфейс API среды выполнения CUDA для написания приложений с ускорением на графическом процессоре. )

Изначально хотел взять именно cuda как индустриальный стандарт, но вероятно, подружить старую AMD-видеокарту, которая и родным ROCm-ом уже поддерживается только со свистоплясками, с NVIDIA-ориентированным cuda было бы еще сложнее

Если будет запрос и найду теоретическое подтверждение такой возможности - с радостью выпущу вторую часть этой эпопеи с cuda

То есть вы прямо сразу без локальных тестов (без K8S) стали всё тестировать на K8S??? то есть не выбираем лёгкий путь?

Был промежуточный этап в виде докера, дебажить в нем быстрее
+ есть ощущение, что запуск на хосте очень далек от запуска в контейнере, поэтому не хотелось экспериментировать с локалкой впустую

Вполне возможно, что я не прав, и начни я с локалки - было бы меньше боли

Даже топовые эпики не сравнятся в скорости инференса даже со старыми гпу типа 1060. Там максимум 5-10 токенов, а минимум 0.5 в сек.

На этой карте, как и например на картах нвидия 1000 серии нет тензорных ядер, что делает невозможным ускорение квантованных моделей. Запустить можно, но производительность будет боль и печаль. Запускать же крошечные модели в q8 на 8гб нет особого смысла тк они глуповатые.

Автор, тебе будет лучше купить любую карту с тензорными ядрами типа 2060 супер на те же 8 гб vram. Затем взять moe модель типа qwen 3.5 a3b и запустить ее в кванте на 3-4 бита. Тензорные ядра (пусть даже первой версии у 2060) дают возможность ускорять умножение для тех самых квантованных чисел в 3-4 бита. Сам роутер модели займет 4 гб vram плюс output слой плюс kv кеш на 48к контекста и суммарно выйдет 7 гб vram. В итоге ты получишь адекватные 30 тс инпут и 5 тс аутпут. Никаких других более бюджетных решений не существует. Я пробовал даже майнинговые карты и там все плохо.

Нет, не будет лучше)

Лучше сжигать элекроэнергию на рх? Это ведь вообще глупо. Разумнее уже заплатить за апи или купить подписку на микро модель.

Попробую иначе объяснить: лучше ДЛЯ ЧЕГО?

Для получения халявных токенов я бы просто взял бесплатную модель с OpenRouter, но задача была не такой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации