Обновить
10
0
Олег@WebSlave

Пользователь

Отправить сообщение

Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.

Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4

Да, тоже вот подумываю. Но там для LLM должно быть не очень из-за совсем низкой производительности в FP16.

Для вычислений чисто FP32, судя по всему, она будет лучше, чем CMP 40HX, но так, как в LLM активно используется FP16, получится хуже.

Вот там no-half точно актуально.

Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?

Написал, что написалось. Что именно указать? Я дополню.

Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.

Нашел переключение на CUDA, при этом скорость генерации на CMP 50/90HX увеличилась примерно вдвое. Потом отдельно про это напишу, там свои приколы. Например, у CMP 40HX наоборот - Vulkan работает быстрее. И у больших моделей тоже.

Проверил. CMP 40 HX будет идеальный вариант. У неё полнофункциональная производительность во всех режимах floating point. Единственный недостаток - обрезаны тензорные ядра, но Open CL их не использует. Скоро дополню статью.
Вот результаты теста в Open CL:

|----------------.------------------------------------------------------------|

| Device Name    | NVIDIA CMP 40HX                                            |

| Device Vendor  | NVIDIA Corporation                                         |

| Device Driver  | 580.88 (Windows)                                           |

| OpenCL Version | OpenCL C 3.0                                               |

| Compute Units  | 34 at 1650 MHz (2176 cores, 7.181 TFLOPs/s)                |

| Memory, Cache  | 8191 MB VRAM, 1088 KB global / 48 KB local                 |

| Buffer Limits  | 2047 MB global, 64 KB constant                             |

|----------------'------------------------------------------------------------|

| FP64  compute                                         0.257 TFLOPs/s (1/32) |

| FP32  compute                                         8.216 TFLOPs/s ( 1x ) |

| FP16  compute                                        16.329 TFLOPs/s ( 2x ) |

| INT64 compute                                         1.997  TIOPs/s (1/4 ) |

| INT32 compute                                         8.108  TIOPs/s ( 1x ) |

| INT16 compute                                         6.947  TIOPs/s ( 1x ) |

| INT8  compute                                         0.918  TIOPs/s (1/8 ) |

| Memory Bandwidth ( coalesced read      )                        395.52 GB/s |

| Memory Bandwidth ( coalesced      write)                        422.22 GB/s |

| Memory Bandwidth (misaligned read      )                        259.79 GB/s |

| Memory Bandwidth (misaligned      write)                         79.93 GB/s |

| PCIe   Bandwidth (send                 )                          1.58 GB/s |

| PCIe   Bandwidth (   receive           )                          1.57 GB/s |

| PCIe   Bandwidth (        bidirectional)            (Gen1 x16)    1.57 GB/s |

|-----------------------------------------------------------------------------|
Ещё у неё INT8 порезано, но вряд ли это будет проблемой. CMP 30HX будет в полтора раза слабее и памяти существенно меньше.

Вчера до ночи разбирался. Скачал этот comfyUI portable, все ключи перепробовал - всё плохо. Та табличка - это лучший вариант. Похоже, он по умолчанию работает в FP16. Можно принудительно включить FP32, тогда будет гораздо хуже.

Пробовал искать и писать разные тесты на питоне и C++. Похоже, что у этих карт заторможены раз в 10 тензорный ядра. Печаль. Для графики не пойдет.

Запустите на своей 4060 16 ГБ (как я понял) пару каких-нибудь моделей в режиме по умолчанию и напишите в чём запускали. А то никто ж толком не говорит, как у него что работает.

Я попробую, конечно, раз уж ввязался в это дело. Но и Вам-то что стоило написать чуть подробнее про видеокарту - сколько ГБ и не "пару секунд", а точно - там же в логе всё написано, и сколько итераций в секунду. Да, понятно что в 10 раз быстрее, но всё же.

Вероятно, используется смесь FP16 и FP32. На чистом FP32 было бы не в 10, а в 30 раз медленнее.

Вечером посмотрю. Эти питоновские штуки реально бесят. Нихрена не поймёшь, что там запускать, потом простыни непонятных ошибок, доустановок и переустановок каких-то пакетов. Поэтому и поставил просто Desktop версию.
Все эти переустановки программ и скачки моделей по 10 ГБ довольно долгие.

Так какая скорость нормальная должна быть, к примеру?
У меня comfyUI Desktop версия, она никаких ключей не принимает. И это не Stable Diffusion.

В Stable Diffusion так

По LM Studio - погонял 2 MoE модели, вот что получилось  – скорость, ток/с.

LM Studio, gpt-oss-20b, 4 эксперта:

CMP 50HX, PCI-exp x16 – 22

CMP 90HX, PCI-exp x4 – 22

CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 15

CMP 50HX + CMP 90HX – 38

 

LM Studio, Qwen3-30b, 8 экспертов:

CMP 50HX, PCI-exp x16 – 18

CMP 50HX, PCI-exp x16, Force Model Expert Weights onto CPU – 13,5

CMP 50HX + CMP 90HX – 27.5

CMP 50HX + CMP 90HX, Force Model Expert Weights onto CPU – 10

CMP 50HX + CMP90HX
CMP 50HX + CMP90HX

Я не понял, для чего "Force Model Expert Weights onto CPU". Скорость всегда падает, при этом расход VRAM очень низкий - 1 с чем то ГБ. Как я понимаю, любая модель и без этого работает. Сколько влезет, будет в VRAM, остальное в RAM.

Потестил в ComfyUI Desktop. Запускал всё по умолчанию.

Результаты брал из логов. Сравнить пока не с чем, хоть бы кто-нибудь написал, как у него.

BIOS переливается легко, но что толку. Прошивок для переделки карт в игровые, снятия ограничений на скорость вычислений, или хотя бы изменения скорости PCI express просто нет. За них пока никто всерьез не взялся.

В LM Studio действительно только Vulkan, но я подумал, что это нормально, так как в загруженных расширениях Runtime куча файлов cuda, до этого их не было. А как должно быть, посмотреть не на чем.

Вот вообще не похоже. Никаких батников, запускается ComfyUI.exe. На браузер тоже не похоже, вроде нормальное приложение с графическим интерфейсом. Сейчас качает недостающие модели.
А какая скорость (время) нормальное? И где это смотреть?

Я готов добавить в статью данные по ComfyUI. Установил его, но:

  1. Оно работает.

  2. Я там нифига не понимаю, постараюсь разобраться.

  3. Насколько оно хорошо работает я не знаю, мне нужно что-то с чем-то сравнить.

Поэтому кто в теме, пришлите что сгенерить (простое) с какими параметрами (желательно простыми), на что и где смотреть, чтобы оценить производительность и главное, пришлите какие-нибудь свои цифры для сравнения. (видеокарта, размер картинки, скорость (время генерации), ... что там ещё важно?).

Не так. Ограничений на количество линий нет. На картах с завода распаяны 4 линии PCI express, но при желании можно допаять все 16. Но версия шины PCI express 1.1 (это не количество линий, а их скорость) зашита скорее всего где-нибудь в BIOSе видеокарт. На сегодня это изменить никому не удалось.

Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?

Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?

С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?

Нет, не так. openCL может работать с любыми типами данных, это зависит от Вашей программы. Я ведь тоже производительность по OpenCL-Benchmark определял. И она по разным типам данных совершенно разная. Чаще всего бенчмарки их усредняют и получают "среднюю температуру по больнице".

Но чаще всего, конечно, при вычислениях используется FP32, а с ним у CMP 50/90 вообще беда. Это llama оказалась неожиданным исключением. С этими картами могут быть любые сюрпризы. Например, CMP 50/90 по вычислениям вроде бы примерно равны, а по Furmark они в 5 раз отличаются. Что-то там ещё порезано. И что не так в других - тоже толком неизвестно. В каждом конкретном случае только пробовать, благо здесь цена ошибки не велика.

1

Информация

В рейтинге
Не участвует
Откуда
Нижегородская обл., Россия
Зарегистрирован
Активность