Синтетические тесты показывают, что эти карты в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов.
По ходу мы рассмотрим:
теоретические данные
условия для работы этих GPU
результаты практических тестов производительности
объяснение полученных противоречий
советы по небольшим доработкам (охлаждение, PCIexpress)
сравнение друг с другом и другими GPU
Введение
Цена на эти видеокарты в несколько раз ниже Nvidia RTX, что привлекает попробовать использовать их вместо «обычных» собратьев. Да и жалко, когда пропадает такое высокотехнологичное оборудование. В русскоязычном сегменте интернета я не нашел внятных сведений о возможности применения этих видеокарт для чего-нибудь, кроме майнинга. Есть немало информации по использованию различных майнинговых видеокарт для игр, но по любым другим вопросам информация отрывочная и разрозненная, обычно по несколько комментов по этой теме на разных ресурсах. Особенно мало информации про CMP 50HX, CMP 90HX и подобные, так как для игр они бесперспективны.

Что о них известно:
10 ГБ видеопамяти
отсутствуют видеовыходы
не работают в большинстве приложений как графические ускорители
имеют искусственные ограничения по вычислительным возможностям и урезанную до 4х линий шину PCIexpress 1.1
Однако, сайт techpowerup.com, высоко оценил их по производительности: CMP 50HX примерно как RTX 2080, а CMP 90HX ещё выше. Там же приведены краткие сведения о них и их «теоретическая производительность». Эти теоретические цифры кочуют из статьи в статью, от бенчмарка к бенчмарку. Всё здесь приводить не буду, кому интересно – обратитесь к оригиналу. Для сравнения приведены данные по NVIDIA GeForce RTX 3070 Ti.
Параметр | CMP 50HX | CMP 90HX | RTX 3070 Ti |
GPU Name | TU102 | GA102 | GA102 |
Pixel Rate | 123.6 GPixel/s | 136.8 GPixel/s | 169.9 GPixel/s |
Texture Rate | 296.6 GTexel/s | 342.0 GTexel/s | 339.8 GTexel/s |
FP16 (half) | 22.15 TFLOPS (2:1) | 21.89 TFLOPS (1:1) | 21.75 TFLOPS (1:1) |
FP32 (float) | 11.07 TFLOPS | 21.89 TFLOPS | 21.75 TFLOPS |
FP64 (double) | 346.1 GFLOPS (1:32) | 342.0 GFLOPS (1:64) | 339.8 GFLOPS (1:64) |
CMP 90HX выглядит идентично RTX 3070 Ti, не правда ли? Но цена на б/у RTX 3070 Ti как минимум вдвое больше. А CMP 50HX вообще за 5-6 т. р. купить можно. Так что же, нужно брать?
Не торопитесь, давайте сначала посмотрим что получается на самом деле.
Как это работает
Во-первых, нужен мощный блок питания – не менее 750 Вт. Карты весьма прожорливы, их TDP составляет 250/320 Вт для 50HX/90HX соответственно.
С отсутствующими видеовыходами всё ясно – нужна встройка, или любая видеокарта-«затычка» и всё без проблем будет работать.
После установки стандартных драйверов Nvidia карты определяются в системе, GPU-Z показывает их характеристики но в параметрах «Computing» и «Technologies» стоят не все «галочки».
В результате не все приложения с ними работают. Например, Ollama с ними работает, а LM Studio не видит. «Бублик» FurMark их так же не видит.
Следующий шаг – установка патченных драйверов Nvidia, идем сюда:
https://github.com/dartraiden/NVIDIA-patcher, читаем здесь
https://pikabu.ru/story/delaem_rtx_2070_iz_deshyovoy_cmp_40hx_za_9k_10357281.
Сейчас у меня стоит пропатченная последняя версия драйверов от Nvidia – 580.88. После этого видеокарты определяются в системе как RTX 2080 Ti и RTX 3070 Ti, но некоторые программы показывают их настоящие названия. LM Studio успешно завелась и уже видит Vulkan GPU, а «Бублик» FurMark теперь крутится.




Теория vs Практика – «холодный душ»
Но что это? Крутится-то «бублик» не больно резво, мягко говоря. Для CMP 50HX он показывает 24-29 FPS в зависимости от режима (GL/VK), а для CMP 90HX вообще 5 FPS.



Вот тут сразу ясно, почему для игр они не подходят. Но что же с вычислениями? Есть такая программка – Cuda-Z, которая определяет производительность видеокарты.
CMP 50HX | CMP 90HX |
Core Information ---------------- Name: NVIDIA CMP 50HX Compute Capability: 7.5 Clock Rate: 1545 MHz PCI Location: 0:18:0 Multiprocessors: 56 Threads Per Multiproc.: 1024 Memory Information ------------------ Total Global: 10239.8 MiB Bus Width: 320 bits Clock Rate: 7001 MHz L2 Cache Size: 48 KiB Shared Per Block: 48 KiB Pitch: 2048 MiB Total Constant: 64 KiB Performance Information ----------------------- Memory Copy Host Pinned to Device: 1560.55 MiB/s Host Pageable to Device: 1491.45 MiB/s Device to Host Pinned: 1564.14 MiB/s Device to Host Pageable: 1491.8 MiB/s Device to Device: 192.901 GiB/s GPU Core Performance Single-precision Float: 436.65 Gflop/s Double-precision Float: 436.621 Gflop/s 64-bit Integer: 3266.44 Giop/s 32-bit Integer: 13.4882 Tiop/s 24-bit Integer: 13.4198 Tiop/s | Core Information ---------------- Name: NVIDIA CMP 90HX Compute Capability: 8.6 Clock Rate: 1710 MHz PCI Location: 0:16:0 Multiprocessors: 50 Threads Per Multiproc.: 1536 Memory Information ------------------ Total Global: 10239.6 MiB Bus Width: 320 bits Clock Rate: 9501 MHz L2 Cache Size: 48 KiB Shared Per Block: 48 KiB Pitch: 2048 MiB Total Constant: 64 KiB Performance Information ----------------------- Memory Copy Host Pinned to Device: 801.233 MiB/s Host Pageable to Device: 777.104 MiB/s Device to Host Pinned: 789.066 MiB/s Device to Host Pageable: 747.778 MiB/s Device to Device: 237.809 GiB/s GPU Core Performance Single-precision Float: 719.494 Gflop/s Double-precision Float: 359.868 Gflop/s 64-bit Integer: 2692.25 Giop/s 32-bit Integer: 11.3901 Tiop/s 24-bit Integer: 11.3753 Tiop/s
|
Самое интересное – в конце таблицы. Итак, здесь всё печально, никаких «теоретических» 11 и 21 TFLOPS для FP32 (Single-precision Float) и близко нет, вместо них 0,43 и 0,72 TFLOPS. Это в 25 и 30 раз меньше соответственно.
Что самое грустное, я не нашел никаких способов что-то с этим сделать. Поэтому бытует мнение, что эти карты никуда не годятся, кроме майнинга.
Тесты в Ollama – а ведь неплохо
Попробуем запустить на них локальные нейросети и оценить скорость генерации. При работе ollama в 10 ГБ видеопамяти на 100% умещаются квантованные модели на 7b, 8b и даже некоторые на 9b. Вот скорость работы некоторых моделей (ток/с):
llama3.1:8b-instruct-q6_K – 32
dolphin3:8b – 28
gemma2:9b – 33
gemma3:4b-it-q8_0 – 57
Квантованные модели на 8b, целиком умещающиеся в видеопамяти выдают по 28-32 токена в секунду, модели по 4b – 45-57 ток/с. Причем CMP 50HX и CMP 90HX показывают результаты одинаковые с точностью до небольшой погрешности. Напомню, что CMP 90HX примерно вдвое дороже.
Замечу, что здесь производительность не зависит от CPU и ОЗУ компьютера. Я пробовал запускать их на старенькой материнке с AMD A10-5800k и более свежем Ryzen 5 5600G, результаты одинаковые.
Немного упомяну про LM Studio – здесь ситуация хуже, скорость работы моделей примерно в 1,5 – 2 раза меньше, чем в ollama. Например, qwen3:8b-q4_K_M выдает здесь около 14 ток/с вместо 28 в ollama.

Если взять модели побольше, то скорость резко падает из-за выгрузки части слоев LLM на CPU. При работе с моделями на 12-14b и обработке на CPU 20-30% модели скорость составляет около 11-13 ток/с.
gpt-oss:20b (37%/63%) выдает 10 ток/с, а dolphin-mixtral:8x7b (69%/31% - бОльшая часть на CPU) всего 7,2 ток/с. Но и нагрузка на GPU составляет всего около 10%, основная часть работает на CPU, поэтому такие тормоза.
Напомню, что если поставить два таких GPU, то объем VRAM составит уже 20 ГБ и туда «влезут» на 100% уже сильно квантованные модели на 12-14b, менее сжатые модели на 8b и даже gpt-oss:20b. А такие модели уже заметно «умнее», при этом работают они довольно шустро (ток/с):
gemma3:12b-it-qat – 26
qwen3:8b-q8_0 – 43
gpt-oss:20b – 55 (да, пятьдесят пять)


Неплохо! Здесь есть несколько неочевидных нюансов.
Две видеокарты суммарно потребляют в таком режиме не 500-600 Вт, как можно подумать, а примерно столько же, сколько и одна.
Суммарная производительность у них примерно как у одной, так как слои распределены по обеим и обрабатываются последовательно. Дело в том, что ollama/llama.cpp не умеют распараллеливать вычисления одной модели на несколько GPU. Они загружают разные слои на разные карты, но обработка идет последовательно. Поэтому прирост только в объеме VRAM, а не в скорости.
Зато при этом греться они почти не будут. И шуметь тоже.
Две видеокарты с 10 ГБ VRAM хуже, чем одна с 20 ГБ VRAM, так как при размещении слоев происходит фрагментация VRAM и остаются неиспользуемые области. По-простому, если размер блоков памяти по 4 ГБ, то в каждую карту влезет по 2 блока по 4 ГБ, а всего в 2 карты – 16 ГБ. Если бы память была цельной, то в одну карту на 20 ГБ влезло бы 5 блоков общим объемом 20 ГБ. Можно примерно считать, что 2 GPU по 10 ГБ это примерно как 1 GPU на 16 ГБ.
Запуск LLM обычно приводит к 100% загрузки GPU и он, конечно, начинает греться. Вот здесь CMP 50HX и CMP 90HX ведут себя по-разному.
CMP 90HX показывает 100% нагрузки на GPU, но температура и потребляемая мощность при этом особо не растут, вентиляторы не прибавляют обороты. Вероятно, её производительность очень сильно «задушена» и она не особо напрягается. (Как позже выяснилось при проведении других замеров производительности, она всё же перегревается и не хочет сама разгонять кулера без внешнего управления.)
CMP 50HX так же показывает 100% нагрузки на GPU, вентиляторы почти не прибавляют обороты, но температура резко повышается и Hot Spot достигает 95 градусов. Алгоритм управления кулерами «зажимает» их обороты до 40-45%, не обращая внимания на перегрев. Проблема решается двумя способами.
Установить MSI Afterburner и настроить его на нужное управление вентиляторами. После этого он должен быть в автозагрузке.
Я обнаружил непонятную прошивку BIOS, которая ставится на CMP 50HX. При этом в работе видеокарты ничего не меняется, но вентиляторы начинают нормально управляться, автоматом от 50 до 100% оборотов, не допуская перегрева GPU. Прошивка здесь – VGA Bios Collection: MSI RTX 2080 10 GB | TechPowerUp.
Лайфхак – если ваша CMP 50HX перегревается, а кулер не разгоняется — попробуйте прошить BIOS от MSI RTX 2080 10GB (есть на TechPowerUp).
Секрет производительности в LLM
Вроде бы получились неплохие показатели производительности. Так в чём же дело? «Бублик»-то очень медленно крутится и игрушки дико тормозят. Ещё бы: 0,43 и 0,72 TFLOPS – это не 10 – 20, как у «нормальных» GPU.
К сожалению, у меня нет видеокарты RTX, чтобы напрямую их сравнить. Но примеры работы LLM на видеокартах RTX, 2060, 2070, 3060, 3070, которые я нашел в сети, показывают близкие результаты. По крайней мере, разница не в разы. И почему CMP 50HX и CMP 90HX показывают одинаковые результаты?
Ситуация интересная и не так уж всё и плохо. Синтетические тесты показывали жалкие 0.44 TFLOPS – эти карты должны быть в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060, реальная скорость генерации — 30 токенов/с. Не сходится – похоже, что синтетика меряет что-то не то.
Если посмотреть на «теоретическую производительность», то все показатели CMP 90HX примерно вдвое выше, чем у CMP 50HX, кроме Integer и FP16 (Half Floating Point – вычисления с половинной точностью). Теоретическая производительность в FP16 у них высокая и почти одинаковая – около 22 TFLOPS, а реальную производительность FP16 Cuda-Z не показывает.
Современные LLM-фреймворки, такие как Ollama, для максимальной скорости могут использовать не полноценную точность FP32, а половинную — FP16. Дело в том, что при инференсе LLM высокая точность не нужна, для уменьшения объема данных здесь широко используется квантование (уменьшение разрядности и точности представления чисел). Вычисления в FP16 часто работают быстрее, а данные занимают меньше места. Что, если, ollama работает в FP16, раз они показывают одинаковые результаты и не такие плохие, как должны быть для FP32?
Стандартных бенчмарков и тестов GPU, показывающих реальную производительность GPU отдельно в FP16 я не нашел. Чтобы раскопать их реальную производительность пришлось копнуть глубже и провести небольшое расследование. Поиски привели на GitHub, где нашлось несколько исходников таких тестов. Один из них я и собрал – «OpenCL-Benchmark». А вот и его результат, который подтвердил мою догадку.
Параметр | CMP 50HX | CMP 90HX |
Compute Units | 56 at 1545 MHz (3584 cores) | 50 at 1710 MHz (6400 cores) |
Memory | 10239 MB | 10239 MB |
Cache global | 1792 KB | 1400 KB |
Cache local | 48 KB | 48 KB |
Buffer global | 2559 MB | 2559 MB |
Buffer const | 64 KB | 64 KB |
FP64 | 0.429 TFLOPs/s (1/24) | 0.352 TFLOPs/s (1/64) |
FP32 | 0.433 TFLOPs/s (1/24) | 0.715 TFLOPs/s (1/32) |
FP16 | 27.220 TFLOPs/s ( 2x ) | 22.443 TFLOPs/s ( 1x ) |
INT64 | 3.228 TIOPs/s (1/4 ) | 2.638 TIOPs/s (1/8 ) |
INT32 | 13.473 TIOPs/s ( 1x ) | 11.317 TIOPs/s (1/2 ) |
INT16 | 10.993 TIOPs/s ( 1x ) | 9.806 TIOPs/s (1/2 ) |
INT8 | 1.715 TIOPs/s (1/8 ) | 1.439 TIOPs/s (1/16) |
Memory coalesced read | 498.10 GB/s | 709.26 GB/s |
Memorycoalesced write | 469.91 GB/s | 715.30 GB/s |
Memory misalign read | 419.61 GB/s | 709.03 GB/s |
Memory misalign write | 125.71 GB/s | 76.71 GB/s |
PCIe send | 1.56 GB/s | 0.81 GB/s |
PCIe receive | 1.56 GB/s | 0.81 GB/s |
PCIe bidirectional | 1.56 GB/s | 0.81 GB/s |
Вот они, заветные терафлопсы в FP16! CMP 50HX ещё и побыстрее считает оказывается… Обратите внимание на числа в скобках – коэффициент (2x) означает, что GPU поддерживает выполнение двух операций FP16 за такт, это признак высокой оптимизации. Но у CMP 50HX память помедленнее, поэтому в итоге выходит примерно одинаково.
Сравним с другими GPU

Ого, да тут есть порох в пороховницах!
По всей видимости, некоторая часть вычислений делается в FP32, а LM Studio использует их больше, что всё несколько тормозит, иначе CMP 50HX была бы ещё быстрее. Вероятно, результаты CMP можно ещё улучшить, если задаться целью и сделать версию движка llama.cpp, оптимизированную строго под FP16.
Немного теоретических предположений о других майнерских картах. CMP 30/40/70, P102/P104/P106 – все имеют более низкую производительность FP16 и меньше VRAM. Хотя, вроде бы на CMP 40HX играть можно, значит там FP32 нормально работает. Но, возможно, где-то FP16 сильно порезано, или вообще отключено.
А что там с шиной PCI-express?
Расширение до 16 линий возможно, но шина остается PCIexpress 1.1. Это делается аппаратно – допаиванием недостающих конденсаторов на линии PCIexpress. Плата рассчитана на 16 линий, но на большинстве майнерских карт конденсаторы запаяны только на 4 линиях. В майнинговых ригах эти карты часто работают вообще в режиме x1 для экономии слотов и ресурсов материнской платы. Допаяв конденсаторы на остальные линии, мы физически включаем их работу, никаких других блокировок здесь нет.
Может оказаться, что 16 линий всё равно работать не будут. Не все слоты материнских плат поддерживают 16 линий. Обычно только один слот работает на 16 линий. Если есть второй длинный слот, он обычно работает на 8 линий, третий вообще на 4. Посмотрите в таблицу выше – CMP 50HX работает на 8 линиях (хотя распаяны все 16), а CMP 90HX – на четырех.
Конденсаторы нужны 0402 емкостью 220 или 100 нФ, напряжение и прочие параметры не важны. Чтобы расширить шину до 16 линий, нужно распаять 24 конденсатора, а до 8 линий – всего 8. Предупреждаю тех, кто не представляет, как их паять – удовольствие ниже среднего, морока ещё та. Поэтому, лучше искать видеокарту с уже напаянными конденсаторами (цена при этом примерно на 1000 дороже).
Не ожидайте многого от расширения шины, GPU не станет работать быстрее! Ну, почти. Переход с 4 линий PCIexpress на 8 немножко увеличивает скорость генерации – примерно на 3%, расширение до 16 линий ещё чуть-чуть – около 1 ток/с. При 8 линиях шина уже не является узким местом. Но «бублик» от этого не будет крутиться быстрее и игрушки не пойдут, если что.
Существенно ускоряется загрузка моделей и контекста, они быстрее начинают отвечать. Расширение до 8 линий ускоряет загрузку примерно в полтора раза, расширение до 16 линий – ещё примерно на четверть (итого где-то вдвое быстрее, чем на 4 линиях). Например, при загрузке с быстрого NVMe накопителя, llama3.1:8b-instruct-q6_K грузится:
4 линии – 10,5 с
8 линий – 7 с
16 линий – 5,5 с.
При загрузке данных с HDD или SATA SSD всё будет гораздо медленнее и разница будет меньше.
Сравнение видеокарт
Для RTX примерные данные из интернета – могут быть не точными, я встречал противоречивые результаты. Буду признателен за уточнения, при необходимости внесу изменения.
Модель | FP16 (TFLOPS) | VRAM, ГБ | Ollama для 8b (ток/с) | Цена б/у, т.р. | р/ток/с |
CMP 50HX | 27 | 10 | 30 | 6 | 200 |
CMP 90HX | 22 | 10 | 30 | 11 | 367 |
RTX 2060 | 13 | 12 | 25 | 15 | 600 |
RTX 3060 | 13 | 12 | 40 | 20 | 500 |
RTX 3070 | 20 | 8 | 60 | 25 | 416 |
Первое, что мы видим – не только FP16 определяют скорость работы. Очевидно, что частично на результат влияет и производительность FP32.

Более дорогая CMP 90HX ничем не лучше CMP 50HX и приобретать её не имеет смысла (по крайней мере на сегодня, пока неизвестны способы «оживить» её теоретические возможности).
Если Вас интересуют какие-то другие вычисления чисто в FP16, то здесь картина ещё контрастнее и CMP 50HX вне конкуренции.

Итоги
CMP 50HX в целом слабее GeForce RTX 20XX/30XX/…, но если есть желание попробовать побаловаться и поэкспериментировать, то при её нынешней цене – это идеальный вариант. Если я прав, то при вычислениях в Integer или FP16 (half) она примерно соответствует RTX 2060/3060, а возможно и 2070/3070 на 8 ГБ, а 2 штуки с успехом заменят гораздо более дорогую карту на 16 ГБ.
Но для других применений, в том числе игр, обучения серьезных LLM, точных FP64/FP32-вычислений (наука, CAD, 3D), они уже не годятся.