WebSlave 24 авг в 12:11

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX

Простой

11 мин

GPGPU * ВидеокартыИскусственный интеллектКомпьютерное железоСтарое железо

+35

Комментарии 41

SmallDonkey 24 авг в 12:20

Спасибо, я ждал эту статью, давно интересовали эти gpu

Spiritschaser 24 авг в 13:57

Шикарно. Как раз ищу объект для экспериментов с райзером от wifi слота M.2 на PCIexpress 1 - хочу сделать переносимую внешнюю LLM "машину" для любого ноута для AI агента в IDE.

MountainGoat 24 авг в 14:29

Не уверен, что из производительности 8b в таком раскладе можно экстраполировать выводы о производительности 32b и 70b. Там всё упрётся, как и всегда, в пропускную способность памяти и шины, а не флопсы. А покупать железо, чтобы гонять на нём 8b - это весьма нишевый случай.

WebSlave 24 авг в 15:26

Никто и не предлагает такое решение для серьезных применений. Это больше побаловаться, поизучать, поисследовать, когда интересно вроде, но пока не знаешь, насколько оно тебе надо.
Естественно, набирать 40-60 ГБ видеопамяти картами по 10 ГБ - такое себе. Но 3 штуки, к примеру, вполне реально. Масштабируется оно нормально. При работе двух карт модель распределяется по обеим, при этом падения скорости относительно работы той же модели (8b, естественно) вообще нет. На двух картах работают модели по 14b, они уже не такие тупенькие. А 3 заменят карту на 24 ГБ, что по цене вообще несопоставимо. Пропускная способность памяти у них очень даже на уровне, по шине передается не так много данных, судя по всему, так что ничего никуда не упрется.
Но ещё раз - это вариант для баловства и дешевых экспериментов.

malyazin_2010 24 авг в 14:41

У меня ПК из трех майнинговых карт p106-100 (аналог 1060ti). Собрал для создания 3д моделей. Три p106-100 в итоге работают по производительности как одна 3060ti, но по цене в пять раз дешевле. Подробнее тут: https://habr.com/ru/articles/896454/

Есть планы заменить р106-100 на cmp40hx, тогда производительность возрастет в три раза

WebSlave 24 авг в 15:09

А точно CMP 40HX подходят? Я где-то встречал, что у них как раз FP16 порезана. Но ничего не утверждаю - тут достоверности никакой, пока сам не проверишь, не поймёшь. Если что, пробуйте осторожно, сначала на одной. Если что не так, то 50HX попробовать можно, но она больше и кушает тоже больше.

malyazin_2010 24 авг в 15:51

У меня opelCL программа, поетому результаты openCL bencmark должны примерно отражать реальную производительность для моих нужд. CMP30 И CMP40 судя по бкнчмарку хорошо мне подойдут. А производительность CMP50 и CMP70 в бенчмарке openCL по каким-то причинам сильно урезана, поэтому скорее всего она окажутся хуже, чем у 30-й и 40-й.

WebSlave 24 авг в 17:04

Нет, не так. openCL может работать с любыми типами данных, это зависит от Вашей программы. Я ведь тоже производительность по OpenCL-Benchmark определял. И она по разным типам данных совершенно разная. Чаще всего бенчмарки их усредняют и получают "среднюю температуру по больнице".

Но чаще всего, конечно, при вычислениях используется FP32, а с ним у CMP 50/90 вообще беда. Это llama оказалась неожиданным исключением. С этими картами могут быть любые сюрпризы. Например, CMP 50/90 по вычислениям вроде бы примерно равны, а по Furmark они в 5 раз отличаются. Что-то там ещё порезано. И что не так в других - тоже толком неизвестно. В каждом конкретном случае только пробовать, благо здесь цена ошибки не велика.

malyazin_2010 24 авг в 18:16

В целом у меня такая же логика. Я купил р104-100, и ее мощность окащалась в полтора раза больше р106-100.

Дальше план купить по одной cmp30/40/50/70/90/100 и затестить что как работает. Потом куплю 3-4 штуки тех карт, которые окажутся самыми эффективними в моей задаче.

10011001010010010 24 авг в 16:51

Для ИИ и видеорендеринга критически важна производительность шин(ы) PCI по которой идёт обмен данными между GPU и CPU и RAM. у майнинга никакого обмена толком нет, там хватает просто любого дохлого шнурка. Так что майнинговые карты для ИИ не годятся.

WebSlave 24 авг в 16:54

Уважаемый, вы статью вообще читали? Это заявление из рода "этого не может быть, потому, что не может быть никогда!". Пруфы давайте. У меня они есть, а у Вас?

10011001010010010 25 авг в 09:25

чтобы вам пруфы насобирать, мне нужно результаты моих экспериментов за несколько лет обобщить. это несколько трудоёмко. если я этим и займусь, то не для того, чтобы ответить на ваш комментарий на мой комментарий.

semushin 24 авг в 20:15

У меня cmp 90hx. Работают модели только те, что влезают в память, типа 7b. всё что выше выдают ошибки. не знаю в чём проблема, с виду вроде новая, знакомый говорит, возможно проблема в банке. в паре с p102-100 работать не хочет. p102-100 в lmstudio в версиях выше 3.20 не работают. интересует скорость генерации при двух картах в параллели. у меня gtx 1080 и p102-100. одна 1080 выдаёт что то около 20 токенов/с на 4b модели, а в паре с p102-100 уже 7 токенов/с. PS у cmp90hx охлад мне нравится.. 7 трубок.

WebSlave 24 авг в 20:29

Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?

Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?

С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?

Shado_vi 25 авг в 02:33

очень интересно было бы ещё про ограничении мощности(power limit).
можно ли за счёт небольшой потери производительности - сильно снизить потребление энергии?

safari2012 25 авг в 11:53

А ограничение в 1 линию PCIе точно обойти нельзя? Вряд ли это сделано на уровне кристалла, где-то стоят лишние резисторы (или отсутствуют дорожки)?

WebSlave 25 авг в 14:35

Не так. Ограничений на количество линий нет. На картах с завода распаяны 4 линии PCI express, но при желании можно допаять все 16. Но версия шины PCI express 1.1 (это не количество линий, а их скорость) зашита скорее всего где-нибудь в BIOSе видеокарт. На сегодня это изменить никому не удалось.

safari2012 26 авг в 06:59

ну 16 линий лучше 4х. плюс БИОС согласно статье перешивается легко...

WebSlave 26 авг в 14:33

BIOS переливается легко, но что толку. Прошивок для переделки карт в игровые, снятия ограничений на скорость вычислений, или хотя бы изменения скорости PCI express просто нет. За них пока никто всерьез не взялся.

4chemist 25 авг в 12:46

Протестируйте карты в генерации изображений. Сработает ли ComfyUI с ключом --force-fp16?

WebSlave 25 авг в 15:12

Я готов добавить в статью данные по ComfyUI. Установил его, но:

Оно работает.
Я там нифига не понимаю, постараюсь разобраться.
Насколько оно хорошо работает я не знаю, мне нужно что-то с чем-то сравнить.

Поэтому кто в теме, пришлите что сгенерить (простое) с какими параметрами (желательно простыми), на что и где смотреть, чтобы оценить производительность и главное, пришлите какие-нибудь свои цифры для сравнения. (видеокарта, размер картинки, скорость (время генерации), ... что там ещё важно?).

4chemist 25 авг в 15:53

Предполагаю, что GUI в браузере запустилось и вы запускали "run_nvidia_gpu.bat". Добавьте " --force-fp16" в строку запуска батника. в Слева найдите "Шаблоны" и выбирайте "Генерация изображений". ComfyUI скажет, что нету моделей и предложит скачать. Скачайте, переместите скачанную модель в ComfyUI_windows_portable\ComfyUI\models\checkpoints\, и жмите "Запустить". Интересует сколько времени будут генерироваться изображения. Стандартный размер 512х512.

Можете так же скопировать консоль, она там же слева внизу нарисовано ">_" без кавычек.

WebSlave 25 авг в 16:00

Вот вообще не похоже. Никаких батников, запускается ComfyUI.exe. На браузер тоже не похоже, вроде нормальное приложение с графическим интерфейсом. Сейчас качает недостающие модели.
А какая скорость (время) нормальное? И где это смотреть?

4chemist 25 авг в 16:12

5090 отрабатывает за секунды. На процессоре модель работает от нескольких минут. Если эти карты отработают за 10-20 секунд это будет очень хорошо.

Shado_vi 25 авг в 16:17

https://github.com/comfyanonymous/ComfyUI/releases
там нет вариантов с ComfyUI.exe а только батники

4chemist 26 авг в 12:59

Захожу посмотреть, что да как...

Вот тут есть результаты тестов разных карт в Stable Diffusion.

https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html

Но там нету стандартно в модели. Кто в лес кто по дрова, трудно объективно оценить карты.

Склоняюсь к мысли перестать скупиться и брать актуальную линейку игровых видеокарт. Продать проще, не надо заниматься профилактикой, энегоэффективней, быстрей, проще продать. Но продаваны ломят ценник.

WebSlave 26 авг в 18:33

Потестил в ComfyUI Desktop. Запускал всё по умолчанию.

Результаты брал из логов. Сравнить пока не с чем, хоть бы кто-нибудь написал, как у него.

4chemist 26 авг в 19:44

Температура и скорость генерации удручают.

Попробуйте добавить ключик к строке запуска.

"Upd: fixed Stable Diffusion perfomance issue by adding --no-half to COMMANDLINE_ARGS"

Тут нашел:

https://github.com/dartraiden/NVIDIA-patcher/issues/45#issuecomment-1762431723

Посмотрите может ещё какие ключи запуска есть чтобы переключиться на FP16.

WebSlave 26 авг в 20:16

Так какая скорость нормальная должна быть, к примеру?
У меня comfyUI Desktop версия, она никаких ключей не принимает. И это не Stable Diffusion.

В Stable Diffusion так

4chemist 26 авг в 21:05

Моделька около 2Гб, картинка 512х512, без улучшалок (хайрез и всё такое) на 3080 генерируется пару-тройку секунд. Т.е. на карте CMP явно используется не fp16. Вы в статье тестировали fp16 и пришли к выводу, что fp16 не зарезано нвидией. Вот хотелось бы убедиться, что и генераторы изображений можно принудительно запустить с fp16.

Возьмите отсюда ComfyUI https://github.com/comfyanonymous/ComfyUI/releases

И там в батнике запуска попробуйте "--force-fp16". Там еще есть куча параметров тюнинга генерации.

Я понимаю, что напрягаю Вас своими хотелками, простите пожалуйста.

WebSlave 27 авг в 03:59

Я попробую, конечно, раз уж ввязался в это дело. Но и Вам-то что стоило написать чуть подробнее про видеокарту - сколько ГБ и не "пару секунд", а точно - там же в логе всё написано, и сколько итераций в секунду. Да, понятно что в 10 раз быстрее, но всё же.

Вероятно, используется смесь FP16 и FP32. На чистом FP32 было бы не в 10, а в 30 раз медленнее.

Вечером посмотрю. Эти питоновские штуки реально бесят. Нихрена не поймёшь, что там запускать, потом простыни непонятных ошибок, доустановок и переустановок каких-то пакетов. Поэтому и поставил просто Desktop версию.
Все эти переустановки программ и скачки моделей по 10 ГБ довольно долгие.

4chemist 27 авг в 10:26

Я в этом вопросе тоже деревянный, да плюс ко всему у меня видеокарт совсем нет. Встроенные в процессор закрывают 146% всех моих потребностей.

Тот ComfyUI что на гитхабе с размером архива 1,9Гб содержит портативную сборку.

run_cpu.bat - очевидно нас не интересует.

run_nvidia_gpu.bat с порезанным fp32 на карте CMP - тоже не интересно.

run_nvidia_gpu_fast_fp16_accumulation.bat - тут интереснее, ComfyUI запускается с параметром --fast fp16_accumulation, и тем более популярные модели fp16.

После запуска откроется GUI ComfyUI в браузере.

Есть еще другие ключи командной строки, которые позволяют включить fp16. Вот эти выглядят перспективно: --force-fp16 --fp16-unet --fp16-text-enc

WebSlave 28 авг в 04:21

Вчера до ночи разбирался. Скачал этот comfyUI portable, все ключи перепробовал - всё плохо. Та табличка - это лучший вариант. Похоже, он по умолчанию работает в FP16. Можно принудительно включить FP32, тогда будет гораздо хуже.

Пробовал искать и писать разные тесты на питоне и C++. Похоже, что у этих карт заторможены раз в 10 тензорный ядра. Печаль. Для графики не пойдет.

Shado_vi 28 авг в 07:03

использования принудительно более свежих версий(Python 3.12 + cu128, а так же использование xformers) - может дать приросты производительности.

https://github.com/leejet/stable-diffusion.cpp

Shannon 28 авг в 09:03

Есть gguf для SDXL, Flux, Flux Kontext. Запускать проще всего в WebUI Forge.

Замеры скорости на flux1-dev-Q6_K.gguf для сравнения:

Для Flux нужно 4 файла:

models\Stable-diffusion\flux1-dev-Q6_K.gguf
models\text_encoder\t5xxl_fp8_e4m3fn.safetensors
models\VAE\ae.safetensors
models\VAE\clip_l.safetensors

Примерно вот так должно выглядеть:

Shannon 25 авг в 23:58

LM Studio успешно завелась и уже видит Vulkan GPU
Немного упомяну про LM Studio – здесь ситуация хуже, скорость работы моделей примерно в 1,5 – 2 раза меньше, чем в ollama. Например, qwen3:8b-q4_K_M выдает здесь около 14 ток/с вместо 28 в ollama.

После установки патченых драйверов не удается сменить runtime в LM Studio на cuda версию? У вас же сейчас Vulkan в LM Studio и cuda в ollama.

gpt-oss:20b (37%/63%) выдает 10 ток/с, а dolphin-mixtral:8x7b (69%/31% - бОльшая часть на CPU) всего 7,2 ток/с. Но и нагрузка на GPU составляет всего около 10%, основная часть работает на CPU, поэтому такие тормоза.

Для MoE-моделей в свежей версии LM Studio добавили выгрузку moe-весов на CPU, оставляя все остальные на GPU.
Испытайте галочку "Force MoE expert weights onto CPU", указав полную выгрузку слоев на GPU. На одной GPU с этой галочкой можно запускать и Qwen3-30B-A3B, и openai_gpt-oss-120b, и GLM-4.5-Air 110B, если обычной RAM памяти хватает, то и Qwen3-235B-A22B.

WebSlave 26 авг в 04:49

В LM Studio действительно только Vulkan, но я подумал, что это нормально, так как в загруженных расширениях Runtime куча файлов cuda, до этого их не было. А как должно быть, посмотреть не на чем.

WebSlave 26 авг в 20:12

По LM Studio - погонял 2 MoE модели, вот что получилось – скорость, ток/с.

LM Studio, gpt-oss-20b, 4 эксперта:

CMP 50HX, PCI-exp x16 – 22

CMP 90HX, PCI-exp x4 – 22

CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 15

CMP 50HX + CMP 90HX – 38

LM Studio, Qwen3-30b, 8 экспертов:

CMP 50HX, PCI-exp x16 – 18

CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 13,5

CMP 50HX + CMP 90HX – 27.5

CMP 50HX + CMP 90HX, Force Model Expert Weights onto CPU – 10

Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ. Как я понимаю, любая модель и без этого работает. Сколько влезет, будет в VRAM, остальное в RAM.

Shannon 27 авг в 01:25

Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ.

В этом и есть смысл. Скорость падает потому, что модель маленькая и почти влезает в VRAM, но таким подходом вы можете запускать большие MoE-модели и вам нужна будет не VRAM, а RAM, при этом получая ускорение с 1 GPU.

Падение скорости можно компенсировать даже на маленькой модели, просто в LM Studio пока добавили только поддержку параметра --cpu-moe, не доделав поддержку --n-cpu-moe N, чтобы заполнять свободную VRAM. Но и в таком виде это освобождает память под контекст, например, у qwen3 каждые 16к это +1.5гб VRAM с flash-attention.

Подробнее как это работает можно почитать тут: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Чтобы было нагляднее. На 4060 имитирую наличие только 10гб VRAM. У модели Qwen3-30b всего 49 слоев, параметр -ngl N указывает сколько слоев выгрузить на GPU.

3 варианта запуска:

.\llama-server.exe -m "Qwen3-30B-A3B-UD-Q5_K_XL.gguf" -fa -ngl 22
.\llama-server.exe -m "Qwen3-30B-A3B-UD-Q5_K_XL.gguf" -fa -cmoe -ngl 99
.\llama-server.exe -m "Qwen3-30B-A3B-UD-Q5_K_XL.gguf" -fa -ncmoe 30 -ngl 99

Так как модель на половину влезает в 10гб, то во 2 варианте происходит просадка, но если снова заполнить тот же объем памяти, то происходит ускорение по сравнению с обычным режимом. И чем крупнее будет модель, тем увереннее 2 вариант будет уходить в ускорение.

Таким подходом можно ускорить, например, openai_gpt-oss-120b с 7.6 t/s до 16 t/s.

WebSlave 27 авг в 04:36

Запустите на своей 4060 16 ГБ (как я понял) пару каких-нибудь моделей в режиме по умолчанию и напишите в чём запускали. А то никто ж толком не говорит, как у него что работает.

Shannon 27 авг в 05:19

Вариант 1 это запуск моделей (Qwen3-30B-A3B-Instruct-2507-UD-Q5_K_XL, openai_gpt-oss-120b-MXFP4) по умолчанию. Запуск напрямую через llama.cpp.

нужно скачать llama-LASTVER-bin-win-cuda-12.4-x64.zip там будет llama-server.exe
скачать cudart-llama-bin-win-cuda-12.4-x64.zip и разархивировать в папку с llama.cpp
запуск из консоли llama-server, после запуска будет написан url, который надо открыть в браузере, команды запуска написаны выше.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий