Комментарии 4
А теперь просто сравните с CUDA с железки за ту же цену, и поймёте, насколько же AMD с их выбором архитектур пролетел мимо поворота. А ведь их предупреждали, ещё 10 лет назад так точно.
Думаю вы сильно удивитесь, но CUDA будет лучше на 20-30%, но не в х2-х3, как обычно преподносится. Независимо от архитектуры скорость генерации токенов ограничена исключительно пропускной способностью памяти, а память у всех одинаковая.
А оптимизация работы ROCm год от года становится только лучше. Только за 2025 год AMD добились практически двухкратного роста производительности.
Тут в первую очередь речь как раз о том, что теперь создать свой домашний сервер можно на любом железе и ОС.
Для владельцев карт AMD выбор бэкенда является критическим. ROCm не просто быстрее — он находится в другой лиге.
А потом мы берём Linux (где обычно и запускают LLM) и там уже не так всё однозначно. Учитывая, что ROCm не так просто поставить, у него ограниченный список поддерживаемого железа, он здоровенный (на арче после установки он хочет отнять 4.5 гигабайта) - а Vulkan работает на всём поддерживаемым в Mesa, возникает в принципе вопрос в его надобности для обычного пользователя. На моём десктопе сначала с 6800ХТ, а потом 9070XT в LM Studio Vulkan всегда работает заметно быстрее.
Так мой посыл был как раз таки в том, что сейчас не нужен Linux и танцы с бубном, когда на windows все теперь работает из коробки.
Я сам пытался поставить все на Linux, запустил даже vllm. И все проклял. А там где все же запустилось - TPS был ниже чем в windows на vulkan.
Поэтому возможность запустить на windows ещё и с rocm это очень серьезный прогресс.

Большой бенчмарк: ROCm vs Vulkan в LM Studio 0.4 и добавление параллельных запросов