Комментарии 9
Интересно, что по скорости получается в сравнении с той же RTX 5060 Ti?
Данное давно есть на github
На моем опыте ROCm работает довольно странно (нестабильно).
Использовал на RX 9070XT.
Пробовал с ComfyUI в двух вариантах:
1) ROCm 6.4 в WSL - после какого-то обновления драйверов в родительской винды начало просто зависать на VAE Decode или на апскейлинге. Comfy UI намертво умирал в таком случае, ибо операцию невозможно отменить без перезапуска сервера. После перезапуска опять работает некоторое время.
2) ROCm 7 нативно в винде с самым последним драйвером - может просто рандомно крашнуться при запуске workflow с неизвестной ошибкой. Comfy UI после ошибки тоже не восстанавливается, и приходится перезапускать.
До сих пор не могу понять, в чем проблема. Модели пробовал разные, все влезают в VRAM.
Пробовал отключать части флоу, оставить самый базовый - без разницы.
Я гонял Strix Halo и у меня rocm/llama.cpp:llama.cpp-b6652.amd0_rocm7.0.0_ubuntu24.04_server показал намного хуже результат чем master llama.cpp
Очень интересно посмотреть результаты
llama-bench -m /data/llama-2-7b.Q4_0.gguf -ngl 99 -fa 0,1
| model | size | params | backend | ngl | fa | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 0 | pp512 | 345.43 ± 2.78 |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 0 | tg128 | 49.79 ± 0.01 |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 1 | pp512 | 354.94 ± 5.57 |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 1 | tg128 | 49.52 ± 0.01 |
| model | size | params | backend | ngl | fa | mmap | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | -: | ---: | --------------: | -------------------: |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 0 | 0 | pp512 | 1343.96 ± 8.71 |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 0 | 0 | tg128 | 46.91 ± 0.03 |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 1 | 0 | pp512 | 1528.16 ± 0.95 |
| llama 7B Q4_0 | 3.56 GiB | 6.74 B | ROCm | 99 | 1 | 0 | tg128 | 50.90 ± 0.01 |pp прям разительно прокачали

Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT