Комментарии 41
Спасибо, я ждал эту статью, давно интересовали эти gpu
Шикарно. Как раз ищу объект для экспериментов с райзером от wifi слота M.2 на PCIexpress 1 - хочу сделать переносимую внешнюю LLM "машину" для любого ноута для AI агента в IDE.
Не уверен, что из производительности 8b в таком раскладе можно экстраполировать выводы о производительности 32b и 70b. Там всё упрётся, как и всегда, в пропускную способность памяти и шины, а не флопсы. А покупать железо, чтобы гонять на нём 8b - это весьма нишевый случай.
Никто и не предлагает такое решение для серьезных применений. Это больше побаловаться, поизучать, поисследовать, когда интересно вроде, но пока не знаешь, насколько оно тебе надо.
Естественно, набирать 40-60 ГБ видеопамяти картами по 10 ГБ - такое себе. Но 3 штуки, к примеру, вполне реально. Масштабируется оно нормально. При работе двух карт модель распределяется по обеим, при этом падения скорости относительно работы той же модели (8b, естественно) вообще нет. На двух картах работают модели по 14b, они уже не такие тупенькие. А 3 заменят карту на 24 ГБ, что по цене вообще несопоставимо. Пропускная способность памяти у них очень даже на уровне, по шине передается не так много данных, судя по всему, так что ничего никуда не упрется.
Но ещё раз - это вариант для баловства и дешевых экспериментов.
У меня ПК из трех майнинговых карт p106-100 (аналог 1060ti). Собрал для создания 3д моделей. Три p106-100 в итоге работают по производительности как одна 3060ti, но по цене в пять раз дешевле. Подробнее тут: https://habr.com/ru/articles/896454/

А точно CMP 40HX подходят? Я где-то встречал, что у них как раз FP16 порезана. Но ничего не утверждаю - тут достоверности никакой, пока сам не проверишь, не поймёшь. Если что, пробуйте осторожно, сначала на одной. Если что не так, то 50HX попробовать можно, но она больше и кушает тоже больше.
У меня opelCL программа, поетому результаты openCL bencmark должны примерно отражать реальную производительность для моих нужд. CMP30 И CMP40 судя по бкнчмарку хорошо мне подойдут. А производительность CMP50 и CMP70 в бенчмарке openCL по каким-то причинам сильно урезана, поэтому скорее всего она окажутся хуже, чем у 30-й и 40-й.

Нет, не так. openCL может работать с любыми типами данных, это зависит от Вашей программы. Я ведь тоже производительность по OpenCL-Benchmark определял. И она по разным типам данных совершенно разная. Чаще всего бенчмарки их усредняют и получают "среднюю температуру по больнице".
Но чаще всего, конечно, при вычислениях используется FP32, а с ним у CMP 50/90 вообще беда. Это llama оказалась неожиданным исключением. С этими картами могут быть любые сюрпризы. Например, CMP 50/90 по вычислениям вроде бы примерно равны, а по Furmark они в 5 раз отличаются. Что-то там ещё порезано. И что не так в других - тоже толком неизвестно. В каждом конкретном случае только пробовать, благо здесь цена ошибки не велика.
Для ИИ и видеорендеринга критически важна производительность шин(ы) PCI по которой идёт обмен данными между GPU и CPU и RAM. у майнинга никакого обмена толком нет, там хватает просто любого дохлого шнурка. Так что майнинговые карты для ИИ не годятся.
Уважаемый, вы статью вообще читали? Это заявление из рода "этого не может быть, потому, что не может быть никогда!". Пруфы давайте. У меня они есть, а у Вас?
У меня cmp 90hx. Работают модели только те, что влезают в память, типа 7b. всё что выше выдают ошибки. не знаю в чём проблема, с виду вроде новая, знакомый говорит, возможно проблема в банке. в паре с p102-100 работать не хочет. p102-100 в lmstudio в версиях выше 3.20 не работают. интересует скорость генерации при двух картах в параллели. у меня gtx 1080 и p102-100. одна 1080 выдаёт что то около 20 токенов/с на 4b модели, а в паре с p102-100 уже 7 токенов/с. PS у cmp90hx охлад мне нравится.. 7 трубок.
Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?
Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?
С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?
очень интересно было бы ещё про ограничении мощности(power limit).
можно ли за счёт небольшой потери производительности - сильно снизить потребление энергии?
А ограничение в 1 линию PCIе точно обойти нельзя? Вряд ли это сделано на уровне кристалла, где-то стоят лишние резисторы (или отсутствуют дорожки)?
Не так. Ограничений на количество линий нет. На картах с завода распаяны 4 линии PCI express, но при желании можно допаять все 16. Но версия шины PCI express 1.1 (это не количество линий, а их скорость) зашита скорее всего где-нибудь в BIOSе видеокарт. На сегодня это изменить никому не удалось.
Протестируйте карты в генерации изображений. Сработает ли ComfyUI с ключом --force-fp16?
Я готов добавить в статью данные по ComfyUI. Установил его, но:
Оно работает.
Я там нифига не понимаю, постараюсь разобраться.
Насколько оно хорошо работает я не знаю, мне нужно что-то с чем-то сравнить.
Поэтому кто в теме, пришлите что сгенерить (простое) с какими параметрами (желательно простыми), на что и где смотреть, чтобы оценить производительность и главное, пришлите какие-нибудь свои цифры для сравнения. (видеокарта, размер картинки, скорость (время генерации), ... что там ещё важно?).
Предполагаю, что GUI в браузере запустилось и вы запускали "run_nvidia_gpu.bat". Добавьте " --force-fp16" в строку запуска батника. в Слева найдите "Шаблоны" и выбирайте "Генерация изображений". ComfyUI скажет, что нету моделей и предложит скачать. Скачайте, переместите скачанную модель в ComfyUI_windows_portable\ComfyUI\models\checkpoints\, и жмите "Запустить". Интересует сколько времени будут генерироваться изображения. Стандартный размер 512х512.
Можете так же скопировать консоль, она там же слева внизу нарисовано ">_" без кавычек.
Вот вообще не похоже. Никаких батников, запускается ComfyUI.exe. На браузер тоже не похоже, вроде нормальное приложение с графическим интерфейсом. Сейчас качает недостающие модели.
А какая скорость (время) нормальное? И где это смотреть?
5090 отрабатывает за секунды. На процессоре модель работает от нескольких минут. Если эти карты отработают за 10-20 секунд это будет очень хорошо.
https://github.com/comfyanonymous/ComfyUI/releases
там нет вариантов с ComfyUI.exe а только батники
Захожу посмотреть, что да как...
Вот тут есть результаты тестов разных карт в Stable Diffusion.
https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html
Но там нету стандартно в модели. Кто в лес кто по дрова, трудно объективно оценить карты.
Склоняюсь к мысли перестать скупиться и брать актуальную линейку игровых видеокарт. Продать проще, не надо заниматься профилактикой, энегоэффективней, быстрей, проще продать. Но продаваны ломят ценник.
Потестил в ComfyUI Desktop. Запускал всё по умолчанию.


Результаты брал из логов. Сравнить пока не с чем, хоть бы кто-нибудь написал, как у него.
Температура и скорость генерации удручают.
Попробуйте добавить ключик к строке запуска.
"Upd: fixed Stable Diffusion perfomance issue by adding --no-half to COMMANDLINE_ARGS"
Тут нашел:
https://github.com/dartraiden/NVIDIA-patcher/issues/45#issuecomment-1762431723
Посмотрите может ещё какие ключи запуска есть чтобы переключиться на FP16.
Так какая скорость нормальная должна быть, к примеру?
У меня comfyUI Desktop версия, она никаких ключей не принимает. И это не Stable Diffusion.
В Stable Diffusion так

Моделька около 2Гб, картинка 512х512, без улучшалок (хайрез и всё такое) на 3080 генерируется пару-тройку секунд. Т.е. на карте CMP явно используется не fp16. Вы в статье тестировали fp16 и пришли к выводу, что fp16 не зарезано нвидией. Вот хотелось бы убедиться, что и генераторы изображений можно принудительно запустить с fp16.
Возьмите отсюда ComfyUI https://github.com/comfyanonymous/ComfyUI/releases
И там в батнике запуска попробуйте "--force-fp16". Там еще есть куча параметров тюнинга генерации.
Я понимаю, что напрягаю Вас своими хотелками, простите пожалуйста.
Я попробую, конечно, раз уж ввязался в это дело. Но и Вам-то что стоило написать чуть подробнее про видеокарту - сколько ГБ и не "пару секунд", а точно - там же в логе всё написано, и сколько итераций в секунду. Да, понятно что в 10 раз быстрее, но всё же.
Вероятно, используется смесь FP16 и FP32. На чистом FP32 было бы не в 10, а в 30 раз медленнее.
Вечером посмотрю. Эти питоновские штуки реально бесят. Нихрена не поймёшь, что там запускать, потом простыни непонятных ошибок, доустановок и переустановок каких-то пакетов. Поэтому и поставил просто Desktop версию.
Все эти переустановки программ и скачки моделей по 10 ГБ довольно долгие.
Я в этом вопросе тоже деревянный, да плюс ко всему у меня видеокарт совсем нет. Встроенные в процессор закрывают 146% всех моих потребностей.
Тот ComfyUI что на гитхабе с размером архива 1,9Гб содержит портативную сборку.
run_cpu.bat - очевидно нас не интересует.
run_nvidia_gpu.bat с порезанным fp32 на карте CMP - тоже не интересно.
run_nvidia_gpu_fast_fp16_accumulation.bat - тут интереснее, ComfyUI запускается с параметром --fast fp16_accumulation, и тем более популярные модели fp16.
После запуска откроется GUI ComfyUI в браузере.
Есть еще другие ключи командной строки, которые позволяют включить fp16. Вот эти выглядят перспективно: --force-fp16 --fp16-unet --fp16-text-enc
Вчера до ночи разбирался. Скачал этот comfyUI portable, все ключи перепробовал - всё плохо. Та табличка - это лучший вариант. Похоже, он по умолчанию работает в FP16. Можно принудительно включить FP32, тогда будет гораздо хуже.
Пробовал искать и писать разные тесты на питоне и C++. Похоже, что у этих карт заторможены раз в 10 тензорный ядра. Печаль. Для графики не пойдет.
использования принудительно более свежих версий(Python 3.12 + cu128, а так же использование xformers) - может дать приросты производительности.
https://github.com/leejet/stable-diffusion.cpp
Есть gguf для SDXL, Flux, Flux Kontext. Запускать проще всего в WebUI Forge.
Замеры скорости на flux1-dev-Q6_K.gguf для сравнения:

Для Flux нужно 4 файла:
models\Stable-diffusion\flux1-dev-Q6_K.gguf
models\text_encoder\t5xxl_fp8_e4m3fn.safetensors
models\VAE\ae.safetensors
models\VAE\clip_l.safetensors
Примерно вот так должно выглядеть:

LM Studio успешно завелась и уже видит Vulkan GPU
Немного упомяну про LM Studio – здесь ситуация хуже, скорость работы моделей примерно в 1,5 – 2 раза меньше, чем в ollama. Например, qwen3:8b-q4_K_M выдает здесь около 14 ток/с вместо 28 в ollama.
После установки патченых драйверов не удается сменить runtime в LM Studio на cuda версию? У вас же сейчас Vulkan в LM Studio и cuda в ollama.
gpt-oss:20b (37%/63%) выдает 10 ток/с, а dolphin-mixtral:8x7b (69%/31% - бОльшая часть на CPU) всего 7,2 ток/с. Но и нагрузка на GPU составляет всего около 10%, основная часть работает на CPU, поэтому такие тормоза.
Для MoE-моделей в свежей версии LM Studio добавили выгрузку moe-весов на CPU, оставляя все остальные на GPU.
Испытайте галочку "Force MoE expert weights onto CPU", указав полную выгрузку слоев на GPU. На одной GPU с этой галочкой можно запускать и Qwen3-30B-A3B, и openai_gpt-oss-120b, и GLM-4.5-Air 110B, если обычной RAM памяти хватает, то и Qwen3-235B-A22B.

В LM Studio действительно только Vulkan, но я подумал, что это нормально, так как в загруженных расширениях Runtime куча файлов cuda, до этого их не было. А как должно быть, посмотреть не на чем.

По LM Studio - погонял 2 MoE модели, вот что получилось – скорость, ток/с.
LM Studio, gpt-oss-20b, 4 эксперта:
CMP 50HX, PCI-exp x16 – 22
CMP 90HX, PCI-exp x4 – 22
CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 15
CMP 50HX + CMP 90HX – 38
LM Studio, Qwen3-30b, 8 экспертов:
CMP 50HX, PCI-exp x16 – 18
CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 13,5
CMP 50HX + CMP 90HX – 27.5
CMP 50HX + CMP 90HX, Force Model Expert Weights onto CPU – 10

Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ. Как я понимаю, любая модель и без этого работает. Сколько влезет, будет в VRAM, остальное в RAM.
Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ.
В этом и есть смысл. Скорость падает потому, что модель маленькая и почти влезает в VRAM, но таким подходом вы можете запускать большие MoE-модели и вам нужна будет не VRAM, а RAM, при этом получая ускорение с 1 GPU.
Падение скорости можно компенсировать даже на маленькой модели, просто в LM Studio пока добавили только поддержку параметра --cpu-moe
, не доделав поддержку --n-cpu-moe N
, чтобы заполнять свободную VRAM. Но и в таком виде это освобождает память под контекст, например, у qwen3 каждые 16к это +1.5гб VRAM с flash-attention.
Подробнее как это работает можно почитать тут: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)
Чтобы было нагляднее. На 4060 имитирую наличие только 10гб VRAM. У модели Qwen3-30b всего 49 слоев, параметр -ngl N
указывает сколько слоев выгрузить на GPU.
3 варианта запуска:
.\llama-server.exe -m "Qwen3-30B-A3B-UD-Q5_K_XL.gguf" -fa -ngl 22
.\llama-server.exe -m "Qwen3-30B-A3B-UD-Q5_K_XL.gguf" -fa -cmoe -ngl 99
.\llama-server.exe -m "Qwen3-30B-A3B-UD-Q5_K_XL.gguf" -fa -ncmoe 30 -ngl 99

Так как модель на половину влезает в 10гб, то во 2 варианте происходит просадка, но если снова заполнить тот же объем памяти, то происходит ускорение по сравнению с обычным режимом. И чем крупнее будет модель, тем увереннее 2 вариант будет уходить в ускорение.
Таким подходом можно ускорить, например, openai_gpt-oss-120b с 7.6 t/s до 16 t/s.

Запустите на своей 4060 16 ГБ (как я понял) пару каких-нибудь моделей в режиме по умолчанию и напишите в чём запускали. А то никто ж толком не говорит, как у него что работает.
Вариант 1 это запуск моделей (Qwen3-30B-A3B-Instruct-2507-UD-Q5_K_XL, openai_gpt-oss-120b-MXFP4) по умолчанию. Запуск напрямую через llama.cpp.
нужно скачать llama-LASTVER-bin-win-cuda-12.4-x64.zip там будет llama-server.exe
скачать cudart-llama-bin-win-cuda-12.4-x64.zip и разархивировать в папку с llama.cpp
запуск из консоли llama-server, после запуска будет написан url, который надо открыть в браузере, команды запуска написаны выше.
Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX