Обновить

Комментарии 9

Интересно, что по скорости получается в сравнении с той же RTX 5060 Ti?

5060ti будет быстрее, она и новее и поддержка cuda все еще лучше, чем rocm.

Спасибо, посмотрю, я не нашёл нормального удобного описания

На моем опыте ROCm работает довольно странно (нестабильно).
Использовал на RX 9070XT.
Пробовал с ComfyUI в двух вариантах:
1) ROCm 6.4 в WSL - после какого-то обновления драйверов в родительской винды начало просто зависать на VAE Decode или на апскейлинге. Comfy UI намертво умирал в таком случае, ибо операцию невозможно отменить без перезапуска сервера. После перезапуска опять работает некоторое время.
2) ROCm 7 нативно в винде с самым последним драйвером - может просто рандомно крашнуться при запуске workflow с неизвестной ошибкой. Comfy UI после ошибки тоже не восстанавливается, и приходится перезапускать.
До сих пор не могу понять, в чем проблема. Модели пробовал разные, все влезают в VRAM.
Пробовал отключать части флоу, оставить самый базовый - без разницы.

Для текстовых моделей работает отлично, проблем не встречал.

А вот ComfyUI да, периодически выкидывает ошибки, приходится перезапускать.

Под виндой Rocm 7 у меня нормально работать не хотел, PyTorch при обучениях вечно ошибки генерил

Я гонял Strix Halo и у меня rocm/llama.cpp:llama.cpp-b6652.amd0_rocm7.0.0_ubuntu24.04_server показал намного хуже результат чем master llama.cpp

Очень интересно посмотреть результаты

llama-bench -m /data/llama-2-7b.Q4_0.gguf -ngl 99 -fa 0,1 

| model                          |       size |     params | backend    | ngl | fa |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  0 |           pp512 |        345.43 ± 2.78 |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  0 |           tg128 |         49.79 ± 0.01 |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  1 |           pp512 |        354.94 ± 5.57 |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  1 |           tg128 |         49.52 ± 0.01 |



| model                          |       size |     params | backend    | ngl | fa | mmap |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | -: | ---: | --------------: | -------------------: |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  0 |    0 |           pp512 |       1343.96 ± 8.71 |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  0 |    0 |           tg128 |         46.91 ± 0.03 |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  1 |    0 |           pp512 |       1528.16 ± 0.95 |
| llama 7B Q4_0                  |   3.56 GiB |     6.74 B | ROCm       |  99 |  1 |    0 |           tg128 |         50.90 ± 0.01 |

pp прям разительно прокачали

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации