Комментарии / Профиль WebSlave / Хабр

Пользователь

ПрофильСтатьи2Посты1НовостиКомментарии25

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

WebSlave 4 дек 2025 в 17:39

Действительно, как будто х16 4.0. Но возможно, это ошибка и проблема драйвера. У меня то же самое в GPU-Z написано, можно увидеть на скрине в первой статье. Но, к сожалению, на 4.0 не работает, только на 1.1.

И вообще, с CMP 90 проблема куда хуже, чем скорость и ширина шины.

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

WebSlave 6 окт 2025 в 04:03

Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.

Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

WebSlave 2 окт 2025 в 15:06

Да, тоже вот подумываю. Но там для LLM должно быть не очень из-за совсем низкой производительности в FP16.

Для вычислений чисто FP32, судя по всему, она будет лучше, чем CMP 40HX, но так, как в LLM активно используется FP16, получится хуже.

Вот там no-half точно актуально.

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

WebSlave 19 сен 2025 в 14:25

Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

WebSlave 19 сен 2025 в 13:48

Написал, что написалось. Что именно указать? Я дополню.

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

WebSlave 19 сен 2025 в 13:46

Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 11 сен 2025 в 20:49

Нашел переключение на CUDA, при этом скорость генерации на CMP 50/90HX увеличилась примерно вдвое. Потом отдельно про это напишу, там свои приколы. Например, у CMP 40HX наоборот - Vulkan работает быстрее. И у больших моделей тоже.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 11 сен 2025 в 18:09

Проверил. CMP 40 HX будет идеальный вариант. У неё полнофункциональная производительность во всех режимах floating point. Единственный недостаток - обрезаны тензорные ядра, но Open CL их не использует. Скоро дополню статью.
Вот результаты теста в Open CL:

|----------------.------------------------------------------------------------|

| Device Name | NVIDIA CMP 40HX |

| Device Vendor | NVIDIA Corporation |

| Device Driver | 580.88 (Windows) |

| OpenCL Version | OpenCL C 3.0 |

| Compute Units | 34 at 1650 MHz (2176 cores, 7.181 TFLOPs/s) |

| Memory, Cache | 8191 MB VRAM, 1088 KB global / 48 KB local |

| Buffer Limits | 2047 MB global, 64 KB constant |

|----------------'------------------------------------------------------------|

| FP64 compute 0.257 TFLOPs/s (1/32) |

| FP32 compute 8.216 TFLOPs/s ( 1x ) |

| FP16 compute 16.329 TFLOPs/s ( 2x ) |

| INT64 compute 1.997 TIOPs/s (1/4 ) |

| INT32 compute 8.108 TIOPs/s ( 1x ) |

| INT16 compute 6.947 TIOPs/s ( 1x ) |

| INT8 compute 0.918 TIOPs/s (1/8 ) |

| Memory Bandwidth ( coalesced read ) 395.52 GB/s |

| Memory Bandwidth ( coalesced write) 422.22 GB/s |

| Memory Bandwidth (misaligned read ) 259.79 GB/s |

| Memory Bandwidth (misaligned write) 79.93 GB/s |

| PCIe Bandwidth (send ) 1.58 GB/s |

| PCIe Bandwidth ( receive ) 1.57 GB/s |

| PCIe Bandwidth ( bidirectional) (Gen1 x16) 1.57 GB/s |

|-----------------------------------------------------------------------------|
Ещё у неё INT8 порезано, но вряд ли это будет проблемой. CMP 30HX будет в полтора раза слабее и памяти существенно меньше.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 28 авг 2025 в 04:21

Вчера до ночи разбирался. Скачал этот comfyUI portable, все ключи перепробовал - всё плохо. Та табличка - это лучший вариант. Похоже, он по умолчанию работает в FP16. Можно принудительно включить FP32, тогда будет гораздо хуже.

Пробовал искать и писать разные тесты на питоне и C++. Похоже, что у этих карт заторможены раз в 10 тензорный ядра. Печаль. Для графики не пойдет.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 27 авг 2025 в 04:36

Запустите на своей 4060 16 ГБ (как я понял) пару каких-нибудь моделей в режиме по умолчанию и напишите в чём запускали. А то никто ж толком не говорит, как у него что работает.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 27 авг 2025 в 03:59

Я попробую, конечно, раз уж ввязался в это дело. Но и Вам-то что стоило написать чуть подробнее про видеокарту - сколько ГБ и не "пару секунд", а точно - там же в логе всё написано, и сколько итераций в секунду. Да, понятно что в 10 раз быстрее, но всё же.

Вероятно, используется смесь FP16 и FP32. На чистом FP32 было бы не в 10, а в 30 раз медленнее.

Вечером посмотрю. Эти питоновские штуки реально бесят. Нихрена не поймёшь, что там запускать, потом простыни непонятных ошибок, доустановок и переустановок каких-то пакетов. Поэтому и поставил просто Desktop версию.
Все эти переустановки программ и скачки моделей по 10 ГБ довольно долгие.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 26 авг 2025 в 20:16

Так какая скорость нормальная должна быть, к примеру?
У меня comfyUI Desktop версия, она никаких ключей не принимает. И это не Stable Diffusion.

В Stable Diffusion так

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 26 авг 2025 в 20:12

По LM Studio - погонял 2 MoE модели, вот что получилось – скорость, ток/с.

LM Studio, gpt-oss-20b, 4 эксперта:

CMP 50HX, PCI-exp x16 – 22

CMP 90HX, PCI-exp x4 – 22

CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 15

CMP 50HX + CMP 90HX – 38

LM Studio, Qwen3-30b, 8 экспертов:

CMP 50HX, PCI-exp x16 – 18

CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 13,5

CMP 50HX + CMP 90HX – 27.5

CMP 50HX + CMP 90HX, Force Model Expert Weights onto CPU – 10

Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ. Как я понимаю, любая модель и без этого работает. Сколько влезет, будет в VRAM, остальное в RAM.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 26 авг 2025 в 18:33

Потестил в ComfyUI Desktop. Запускал всё по умолчанию.

Результаты брал из логов. Сравнить пока не с чем, хоть бы кто-нибудь написал, как у него.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 26 авг 2025 в 14:33

BIOS переливается легко, но что толку. Прошивок для переделки карт в игровые, снятия ограничений на скорость вычислений, или хотя бы изменения скорости PCI express просто нет. За них пока никто всерьез не взялся.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 26 авг 2025 в 04:49

В LM Studio действительно только Vulkan, но я подумал, что это нормально, так как в загруженных расширениях Runtime куча файлов cuda, до этого их не было. А как должно быть, посмотреть не на чем.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 25 авг 2025 в 16:00

Вот вообще не похоже. Никаких батников, запускается ComfyUI.exe. На браузер тоже не похоже, вроде нормальное приложение с графическим интерфейсом. Сейчас качает недостающие модели.
А какая скорость (время) нормальное? И где это смотреть?

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 25 авг 2025 в 15:12

Я готов добавить в статью данные по ComfyUI. Установил его, но:

Оно работает.
Я там нифига не понимаю, постараюсь разобраться.
Насколько оно хорошо работает я не знаю, мне нужно что-то с чем-то сравнить.

Поэтому кто в теме, пришлите что сгенерить (простое) с какими параметрами (желательно простыми), на что и где смотреть, чтобы оценить производительность и главное, пришлите какие-нибудь свои цифры для сравнения. (видеокарта, размер картинки, скорость (время генерации), ... что там ещё важно?).

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 25 авг 2025 в 14:35

Не так. Ограничений на количество линий нет. На картах с завода распаяны 4 линии PCI express, но при желании можно допаять все 16. Но версия шины PCI express 1.1 (это не количество линий, а их скорость) зашита скорее всего где-нибудь в BIOSе видеокарт. На сегодня это изменить никому не удалось.

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

WebSlave 24 авг 2025 в 20:29

Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?

Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?

С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?