Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.
Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4
Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.
Нашел переключение на CUDA, при этом скорость генерации на CMP 50/90HX увеличилась примерно вдвое. Потом отдельно про это напишу, там свои приколы. Например, у CMP 40HX наоборот - Vulkan работает быстрее. И у больших моделей тоже.
Проверил. CMP 40 HX будет идеальный вариант. У неё полнофункциональная производительность во всех режимах floating point. Единственный недостаток - обрезаны тензорные ядра, но Open CL их не использует. Скоро дополню статью. Вот результаты теста в Open CL:
|-----------------------------------------------------------------------------| Ещё у неё INT8 порезано, но вряд ли это будет проблемой. CMP 30HX будет в полтора раза слабее и памяти существенно меньше.
Вчера до ночи разбирался. Скачал этот comfyUI portable, все ключи перепробовал - всё плохо. Та табличка - это лучший вариант. Похоже, он по умолчанию работает в FP16. Можно принудительно включить FP32, тогда будет гораздо хуже.
Пробовал искать и писать разные тесты на питоне и C++. Похоже, что у этих карт заторможены раз в 10 тензорный ядра. Печаль. Для графики не пойдет.
Запустите на своей 4060 16 ГБ (как я понял) пару каких-нибудь моделей в режиме по умолчанию и напишите в чём запускали. А то никто ж толком не говорит, как у него что работает.
Я попробую, конечно, раз уж ввязался в это дело. Но и Вам-то что стоило написать чуть подробнее про видеокарту - сколько ГБ и не "пару секунд", а точно - там же в логе всё написано, и сколько итераций в секунду. Да, понятно что в 10 раз быстрее, но всё же.
Вероятно, используется смесь FP16 и FP32. На чистом FP32 было бы не в 10, а в 30 раз медленнее.
Вечером посмотрю. Эти питоновские штуки реально бесят. Нихрена не поймёшь, что там запускать, потом простыни непонятных ошибок, доустановок и переустановок каких-то пакетов. Поэтому и поставил просто Desktop версию. Все эти переустановки программ и скачки моделей по 10 ГБ довольно долгие.
По LM Studio - погонял 2 MoE модели, вот что получилось – скорость, ток/с.
LM Studio, gpt-oss-20b, 4 эксперта:
CMP 50HX, PCI-exp x16 – 22
CMP 90HX, PCI-exp x4 – 22
CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 15
CMP 50HX + CMP 90HX – 38
LM Studio, Qwen3-30b, 8 экспертов:
CMP 50HX, PCI-exp x16 – 18
CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 13,5
CMP 50HX + CMP 90HX – 27.5
CMP 50HX + CMP 90HX, Force Model Expert Weights onto CPU – 10
CMP 50HX + CMP90HX
Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ. Как я понимаю, любая модель и без этого работает. Сколько влезет, будет в VRAM, остальное в RAM.
BIOS переливается легко, но что толку. Прошивок для переделки карт в игровые, снятия ограничений на скорость вычислений, или хотя бы изменения скорости PCI express просто нет. За них пока никто всерьез не взялся.
В LM Studio действительно только Vulkan, но я подумал, что это нормально, так как в загруженных расширениях Runtime куча файлов cuda, до этого их не было. А как должно быть, посмотреть не на чем.
Вот вообще не похоже. Никаких батников, запускается ComfyUI.exe. На браузер тоже не похоже, вроде нормальное приложение с графическим интерфейсом. Сейчас качает недостающие модели. А какая скорость (время) нормальное? И где это смотреть?
Я готов добавить в статью данные по ComfyUI. Установил его, но:
Оно работает.
Я там нифига не понимаю, постараюсь разобраться.
Насколько оно хорошо работает я не знаю, мне нужно что-то с чем-то сравнить.
Поэтому кто в теме, пришлите что сгенерить (простое) с какими параметрами (желательно простыми), на что и где смотреть, чтобы оценить производительность и главное, пришлите какие-нибудь свои цифры для сравнения. (видеокарта, размер картинки, скорость (время генерации), ... что там ещё важно?).
Не так. Ограничений на количество линий нет. На картах с завода распаяны 4 линии PCI express, но при желании можно допаять все 16. Но версия шины PCI express 1.1 (это не количество линий, а их скорость) зашита скорее всего где-нибудь в BIOSе видеокарт. На сегодня это изменить никому не удалось.
Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?
Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?
С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?
Нет, не так. openCL может работать с любыми типами данных, это зависит от Вашей программы. Я ведь тоже производительность по OpenCL-Benchmark определял. И она по разным типам данных совершенно разная. Чаще всего бенчмарки их усредняют и получают "среднюю температуру по больнице".
Но чаще всего, конечно, при вычислениях используется FP32, а с ним у CMP 50/90 вообще беда. Это llama оказалась неожиданным исключением. С этими картами могут быть любые сюрпризы. Например, CMP 50/90 по вычислениям вроде бы примерно равны, а по Furmark они в 5 раз отличаются. Что-то там ещё порезано. И что не так в других - тоже толком неизвестно. В каждом конкретном случае только пробовать, благо здесь цена ошибки не велика.
Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.
Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4
Да, тоже вот подумываю. Но там для LLM должно быть не очень из-за совсем низкой производительности в FP16.
Для вычислений чисто FP32, судя по всему, она будет лучше, чем CMP 40HX, но так, как в LLM активно используется FP16, получится хуже.
Вот там no-half точно актуально.
Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?
Написал, что написалось. Что именно указать? Я дополню.
Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.
Нашел переключение на CUDA, при этом скорость генерации на CMP 50/90HX увеличилась примерно вдвое. Потом отдельно про это напишу, там свои приколы. Например, у CMP 40HX наоборот - Vulkan работает быстрее. И у больших моделей тоже.
Проверил. CMP 40 HX будет идеальный вариант. У неё полнофункциональная производительность во всех режимах floating point. Единственный недостаток - обрезаны тензорные ядра, но Open CL их не использует. Скоро дополню статью.
Вот результаты теста в Open CL:
|----------------.------------------------------------------------------------|
| Device Name | NVIDIA CMP 40HX |
| Device Vendor | NVIDIA Corporation |
| Device Driver | 580.88 (Windows) |
| OpenCL Version | OpenCL C 3.0 |
| Compute Units | 34 at 1650 MHz (2176 cores, 7.181 TFLOPs/s) |
| Memory, Cache | 8191 MB VRAM, 1088 KB global / 48 KB local |
| Buffer Limits | 2047 MB global, 64 KB constant |
|----------------'------------------------------------------------------------|
| FP64 compute 0.257 TFLOPs/s (1/32) |
| FP32 compute 8.216 TFLOPs/s ( 1x ) |
| FP16 compute 16.329 TFLOPs/s ( 2x ) |
| INT64 compute 1.997 TIOPs/s (1/4 ) |
| INT32 compute 8.108 TIOPs/s ( 1x ) |
| INT16 compute 6.947 TIOPs/s ( 1x ) |
| INT8 compute 0.918 TIOPs/s (1/8 ) |
| Memory Bandwidth ( coalesced read ) 395.52 GB/s |
| Memory Bandwidth ( coalesced write) 422.22 GB/s |
| Memory Bandwidth (misaligned read ) 259.79 GB/s |
| Memory Bandwidth (misaligned write) 79.93 GB/s |
| PCIe Bandwidth (send ) 1.58 GB/s |
| PCIe Bandwidth ( receive ) 1.57 GB/s |
| PCIe Bandwidth ( bidirectional) (Gen1 x16) 1.57 GB/s |
|-----------------------------------------------------------------------------|
Ещё у неё INT8 порезано, но вряд ли это будет проблемой. CMP 30HX будет в полтора раза слабее и памяти существенно меньше.
Вчера до ночи разбирался. Скачал этот comfyUI portable, все ключи перепробовал - всё плохо. Та табличка - это лучший вариант. Похоже, он по умолчанию работает в FP16. Можно принудительно включить FP32, тогда будет гораздо хуже.
Пробовал искать и писать разные тесты на питоне и C++. Похоже, что у этих карт заторможены раз в 10 тензорный ядра. Печаль. Для графики не пойдет.
Запустите на своей 4060 16 ГБ (как я понял) пару каких-нибудь моделей в режиме по умолчанию и напишите в чём запускали. А то никто ж толком не говорит, как у него что работает.
Я попробую, конечно, раз уж ввязался в это дело. Но и Вам-то что стоило написать чуть подробнее про видеокарту - сколько ГБ и не "пару секунд", а точно - там же в логе всё написано, и сколько итераций в секунду. Да, понятно что в 10 раз быстрее, но всё же.
Вероятно, используется смесь FP16 и FP32. На чистом FP32 было бы не в 10, а в 30 раз медленнее.
Вечером посмотрю. Эти питоновские штуки реально бесят. Нихрена не поймёшь, что там запускать, потом простыни непонятных ошибок, доустановок и переустановок каких-то пакетов. Поэтому и поставил просто Desktop версию.
Все эти переустановки программ и скачки моделей по 10 ГБ довольно долгие.
Так какая скорость нормальная должна быть, к примеру?
У меня comfyUI Desktop версия, она никаких ключей не принимает. И это не Stable Diffusion.
В Stable Diffusion так
По LM Studio - погонял 2 MoE модели, вот что получилось – скорость, ток/с.
LM Studio, gpt-oss-20b, 4 эксперта:
CMP 50HX, PCI-exp x16 – 22
CMP 90HX, PCI-exp x4 – 22
CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 15
CMP 50HX + CMP 90HX – 38
LM Studio, Qwen3-30b, 8 экспертов:
CMP 50HX, PCI-exp x16 – 18
CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 13,5
CMP 50HX + CMP 90HX – 27.5
CMP 50HX + CMP 90HX, Force Model Expert Weights onto CPU – 10
Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ. Как я понимаю, любая модель и без этого работает. Сколько влезет, будет в VRAM, остальное в RAM.
Потестил в ComfyUI Desktop. Запускал всё по умолчанию.
Результаты брал из логов. Сравнить пока не с чем, хоть бы кто-нибудь написал, как у него.
BIOS переливается легко, но что толку. Прошивок для переделки карт в игровые, снятия ограничений на скорость вычислений, или хотя бы изменения скорости PCI express просто нет. За них пока никто всерьез не взялся.
В LM Studio действительно только Vulkan, но я подумал, что это нормально, так как в загруженных расширениях Runtime куча файлов cuda, до этого их не было. А как должно быть, посмотреть не на чем.
Вот вообще не похоже. Никаких батников, запускается ComfyUI.exe. На браузер тоже не похоже, вроде нормальное приложение с графическим интерфейсом. Сейчас качает недостающие модели.
А какая скорость (время) нормальное? И где это смотреть?
Я готов добавить в статью данные по ComfyUI. Установил его, но:
Оно работает.
Я там нифига не понимаю, постараюсь разобраться.
Насколько оно хорошо работает я не знаю, мне нужно что-то с чем-то сравнить.
Поэтому кто в теме, пришлите что сгенерить (простое) с какими параметрами (желательно простыми), на что и где смотреть, чтобы оценить производительность и главное, пришлите какие-нибудь свои цифры для сравнения. (видеокарта, размер картинки, скорость (время генерации), ... что там ещё важно?).
Не так. Ограничений на количество линий нет. На картах с завода распаяны 4 линии PCI express, но при желании можно допаять все 16. Но версия шины PCI express 1.1 (это не количество линий, а их скорость) зашита скорее всего где-нибудь в BIOSе видеокарт. На сегодня это изменить никому не удалось.
Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?
Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?
С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?
Нет, не так. openCL может работать с любыми типами данных, это зависит от Вашей программы. Я ведь тоже производительность по OpenCL-Benchmark определял. И она по разным типам данных совершенно разная. Чаще всего бенчмарки их усредняют и получают "среднюю температуру по больнице".
Но чаще всего, конечно, при вычислениях используется FP32, а с ним у CMP 50/90 вообще беда. Это llama оказалась неожиданным исключением. С этими картами могут быть любые сюрпризы. Например, CMP 50/90 по вычислениям вроде бы примерно равны, а по Furmark они в 5 раз отличаются. Что-то там ещё порезано. И что не так в других - тоже толком неизвестно. В каждом конкретном случае только пробовать, благо здесь цена ошибки не велика.