Синтетические тесты показывают, что эти карты в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов.

 По ходу мы рассмотрим:

  • теоретические данные

  • условия для работы этих GPU

  • результаты практических тестов производительности

  • объяснение полученных противоречий

  • советы по небольшим доработкам (охлаждение, PCIexpress)

  • сравнение друг с другом и другими GPU

Введение

Цена на эти видеокарты в несколько раз ниже Nvidia RTX, что привлекает попробовать использовать их вместо «обычных» собратьев. Да и жалко, когда пропадает такое высокотехнологичное оборудование. В русскоязычном сегменте интернета я не нашел внятных сведений о возможности применения этих видеокарт для чего-нибудь, кроме майнинга. Есть немало информации по использованию различных майнинговых видеокарт для игр, но по любым другим вопросам информация отрывочная и разрозненная, обычно по несколько комментов по этой теме на разных ресурсах. Особенно мало информации про CMP 50HX, CMP 90HX и подобные, так как для игр они бесперспективны.

Это хлам, или что?
Это хлам, или что?

Что о них известно:

  • 10 ГБ видеопамяти

  • отсутствуют видеовыходы

  • не работают в большинстве приложений как графические ускорители

  • имеют искусственные ограничения по вычислительным возможностям и урезанную до 4х линий шину PCIexpress 1.1

Однако, сайт techpowerup.com, высоко оценил их по производительности: CMP 50HX примерно как RTX 2080, а CMP 90HX ещё выше. Там же приведены краткие сведения о них и их «теоретическая производительность». Эти теоретические цифры кочуют из статьи в статью, от бенчмарка к бенчмарку. Всё здесь приводить не буду, кому интересно – обратитесь к оригиналу. Для сравнения приведены данные по NVIDIA GeForce RTX 3070 Ti.

Параметр

CMP 40HX

CMP 50HX

CMP 90HX

RTX 3060

RTX 3070 Ti

Architecture

Turing

Turing

Ampere

Ampere

Ampere

Memory Size

8 GB

10 GB

10 GB

12 GB

8 GB

GPU Name

TU106

TU102

GA102

GA106

GA102

Pixel Rate

105.6 GPixel/s

123.6 GPixel/s

136.8 GPixel/s

85.30 GPixel/s

169.9 GPixel/s

Texture Rate

237.6 GTexel/s

296.6 GTexel/s

342.0 GTexel/s

199.0 GTexel/s

339.8 GTexel/s

FP16 (half)

15.21 TFLOPS (2:1)

22.15 TFLOPS (2:1)

21.89 TFLOPS (1:1)

12.74 TFLOPS (1:1)

21.75 TFLOPS (1:1)

FP32 (float)

7.603 TFLOPS

11.07 TFLOPS

21.89 TFLOPS

12.74 TFLOPS

21.75 TFLOPS

FP64 (double)

237.6 GFLOPS (1:32)

346.1 GFLOPS (1:32)

342.0 GFLOPS (1:64)

199.0 GFLOPS (1:64)

339.8 GFLOPS (1:64)

CMP 90HX выглядит идентично RTX 3070 Ti, не правда ли? Но цена на б/у RTX 3070 Ti как минимум вдвое больше. А CMP 40HX и CMP 50HX вообще за 5-7 т.р. купить можно. Так что же, нужно брать?

Не торопитесь. Посмотрим, что получается на самом деле.

 Как это работает

 Во-первых, нужен мощный блок питания – не менее 750 Вт. Карты весьма прожорливы, их TDP составляет 250/320 Вт для 50HX/90HX соответственно.

С отсутствующими видеовыходами всё ясно – нужна встройка, или любая видеокарта-«затычка» и всё без проблем будет работать.

После установки стандартных драйверов Nvidia карты определяются в системе, GPU-Z показывает их характеристики но в параметрах «Computing» и «Technologies» стоят не все «галочки».

В результате не все приложения с ними работают. Например, Ollama с ними работает, а LM Studio не видит. «Бублик» FurMark их так же не видит.

Следующий шаг – установка патченных драйверов Nvidia, идем сюда:
https://github.com/dartraiden/NVIDIA-patcher, читаем здесь
https://pikabu.ru/story/delaem_rtx_2070_iz_deshyovoy_cmp_40hx_za_9k_10357281.

Сейчас у меня стоит пропатченная последняя версия драйверов от Nvidia – 580.88. После этого видеокарты определяются в системе как RTX 2070, RTX 2080 Ti и RTX 3070 Ti, но некоторые программы показывают их настоящие названия. LM Studio успешно завелась и уже видит Vulkan GPU, а «Бублик» FurMark теперь крутится.

CMP 40HX
CMP 40HX
CMP 50HX
CMP 50HX
CMP 90HX
CMP 90HX
LM Studio
LM Studio

Теория vs Практика – «холодный душ»

Но что это? Кроме CMP 40HX, крутится-то «бублик» не больно резво, мягко говоря. Для CMP 50HX он показывает 24-29 FPS в зависимости от режима (GL/VK), а для CMP 90HX вообще 5 FPS.

CMP 40HX
CMP 40HX
CMP 50HX
CMP 50HX
CMP 50HX
CMP 50HX
CMP 90HX
CMP 90HX

Вот тут сразу ясно, почему 50HX/90HX не подходят для игр. Но что же с вычислениями? Есть такая программка – Cuda-Z, которая определяет производительность видеокарты.

CMP 40HX

CMP 50HX

CMP 90HX

RTX 3060

Core Information

----------------

Name: NVIDIA CMP 40HX

Compute Capability: 7.5

Clock Rate: 1650 MHz

Multiprocessors: 34

Threads Per Multiproc.: 1024

 

Memory Information

------------------

Total Global: 8191.75 MiB

Bus Width: 256 bits

Clock Rate: 7001 MHz

L2 Cache Size: 48 KiB

Shared Per Block: 48 KiB

Pitch: 2048 MiB

Total Constant: 64 KiB

 

Performance Information

-----------------------

Memory Copy

Host Pinned to Device: 1605.7 MiB/s

Host Pageable to Device: 1416.91 MiB/s

Device to Host Pinned: 1586.58 MiB/s

Device to Host Pageable: 1489.8 MiB/s

Device to Device: 156.013 GiB/s

GPU Core Performance

Single-precision Float: 7963.78 Gflop/s

Double-precision Float: 257.554 Gflop/s

64-bit Integer: 1924.72 Giop/s

32-bit Integer: 7971.62 Giop/s

24-bit Integer: 7842.89 Giop/s

Core Information

----------------

Name: NVIDIA CMP 50HX

Compute Capability: 7.5

Clock Rate: 1545 MHz

Multiprocessors: 56

Threads Per Multiproc.: 1024

 

Memory Information

------------------

Total Global: 10239.8 MiB

Bus Width: 320 bits

Clock Rate: 7001 MHz

L2 Cache Size: 48 KiB

Shared Per Block: 48 KiB

Pitch: 2048 MiB

Total Constant: 64 KiB

 

Performance Information

-----------------------

Memory Copy

Host Pinned to Device: 1560.55 MiB/s

Host Pageable to Device: 1491.45 MiB/s

Device to Host Pinned: 1564.14 MiB/s

Device to Host Pageable: 1491.8 MiB/s

Device to Device: 192.901 GiB/s

GPU Core Performance

Single-precision Float: 436.65 Gflop/s

Double-precision Float: 436.621 Gflop/s

64-bit Integer: 3266.44 Giop/s

32-bit Integer: 13.4882 Tiop/s

24-bit Integer: 13.4198 Tiop/s

Core Information

----------------

Name: NVIDIA CMP 90HX

Compute Capability: 8.6

Clock Rate: 1710 MHz

Multiprocessors: 50

Threads Per Multiproc.: 1536

 

Memory Information

------------------

Total Global: 10239.6 MiB

Bus Width: 320 bits

Clock Rate: 9501 MHz

L2 Cache Size: 48 KiB

Shared Per Block: 48 KiB

Pitch: 2048 MiB

Total Constant: 64 KiB

 

Performance Information

-----------------------

Memory Copy

Host Pinned to Device: 801.233 MiB/s

Host Pageable to Device: 777.104 MiB/s

Device to Host Pinned: 789.066 MiB/s

Device to Host Pageable: 747.778 MiB/s

Device to Device: 237.809 GiB/s

GPU Core Performance

Single-precision Float: 719.494 Gflop/s

Double-precision Float: 359.868 Gflop/s

64-bit Integer: 2692.25 Giop/s

32-bit Integer: 11.3901 Tiop/s

24-bit Integer: 11.3753 Tiop/s

 

Core Information

----------------

Name: NVIDIA GeForce RTX 3060

Compute Capability: 8.6

Clock Rate: 1777 MHz

Multiprocessors: 28

Threads Per Multiproc.: 1536

 

Memory Information

------------------

Total Global: 11.9995 GiB

Bus Width: 192 bits

Clock Rate: 7501 MHz

L2 Cache Size: 48 KiB

Shared Per Block: 48 KiB

Pitch: 2048 MiB

Total Constant: 64 KiB

 

Performance Information

-----------------------

Memory Copy

Host Pinned to Device: 12.1416 GiB/s

Host Pageable to Device: 7969.03 MiB/s

Device to Host Pinned: 11.9788 GiB/s

Device to Host Pageable: 7987.67 MiB/s

Device to Device: 143.013 GiB/s

GPU Core Performance

Single-precision Float: 13.379 Tflop/s

Double-precision Float: 138.132 Gflop/s

64-bit Integer: 1612.6 Giop/s

32-bit Integer: 6803.56 Giop/s

24-bit Integer: 6787.1 Giop/s

Для сравнения приведены значения для RTX 3060 12GB. Самое интересное – в конце таблицы. Итак, здесь для 50HX/90HX всё печально, никаких «теоретических» 11 и 21 TFLOPS для FP32 (Single-precision Float) и близко нет, вместо них 0,43 и 0,72 TFLOPS. Это в 25 и 30 раз меньше соответственно. Что самое грустное, я не нашел никаких способов что-то с этим сделать. Поэтому бытует мнение, что эти карты никуда не годятся, кроме майнинга.

У CMP 40HX заявленные значения не столь высокие, но с FP32 всё в порядке, поэтому и «бублик» с ней крутится резво и игрушки на ней идут.
Однако, дело явно не только в FP32. Ведь у CMP 90HX скорость вычислений здесь выше, чем у 50HX, но у 90HX с "бубликом" просто катастрофа - всего 4 FPS.

 Тесты в Ollama – а ведь неплохо

Попробуем запустить на них локальные нейросети и оценить скорость генерации. При работе ollama в 10 ГБ видеопамяти на 100% умещаются квантованные модели на 7b, 8b и даже некоторые на 9b. Вот скорость работы некоторых моделей (ток/с):

Модель LLM

RAM, GB

CMP 40HX

CMP 50/90HX

RTX 3060 12GB

qwen3:8b-q4_K_M

6.5

25

29

51

llama3.1:8b-instruct-q6_K

7.7

26

34

40

dolphin3:8b

6.1

23

30

53

gemma2:9b

8

17

33

45

gemma3:4b-it-q8_0

7.4

31

57

58.5

Квантованные модели на 8b, целиком умещающиеся в видеопамяти CMP 50HX и CMP 90HX и выдают по 28-34 токена в секунду, модели по 4b – 45-57 ток/с. Причем CMP 50HX и CMP 90HX показывают результаты одинаковые с точностью до небольшой погрешности. Напомню, что CMP 90HX примерно вдвое дороже.

У CMP 40HX памяти поменьше и у более крупных моделей, или с квантованием более q4 производительность «проседает».

Замечу, что здесь производительность не зависит от CPU и ОЗУ компьютера. Я пробовал запускать их на старенькой материнке с AMD A10-5800k и более свежем Ryzen 5 5600G, результаты одинаковые.

Немного упомяну про LM Studio – здесь ситуация заметно отличается, есть свои нюансы, но об этом будет в следующей статье. Однако, сразу говорю, что там CMP 40HX показала себя очень хорошо.

LM Studio
LM Studio

Если взять модели побольше, то скорость резко падает из-за выгрузки части слоев LLM на CPU. При работе с моделями на 12-14b и обработке на CPU 20-30% модели скорость составляет около 11-13 ток/с.

gpt-oss:20b (37%/63%) выдает 10 ток/с, а dolphin-mixtral:8x7b (69%/31% - бОльшая часть на CPU) всего 7,2 ток/с. Но и нагрузка на GPU составляет всего около 10%, основная часть работает на CPU, поэтому такие тормоза.

Напомню, что если поставить два GPU 50HX/90HX, то объем VRAM составит уже 20 ГБ и туда «влезут» на 100% уже сильно квантованные модели на 12-14b, менее сжатые модели на 8b и даже gpt-oss:20b. А такие модели уже заметно «умнее», при этом работают они довольно шустро (ток/с):

Модель LLM

RAM, GB

CMP 50HX+90HX

RTX 3060 12G

gemma3:12b-it-qat

12

26

13.5

qwen3:8b-q8_0

9.9

43

35

qwen3:14b-q4_K_M

10

16

32

gpt-oss:20b

14

55

19

Здесь видно, что карта на 12 ГБ резко «проседает» в скорости при объеме модели в 12 и более ГБ.

gpt-oss:20b на двух GPU
gpt-oss:20b на двух GPU
Загрузка моделей на двух GPU
Загрузка моделей на двух GPU

Неплохо! Здесь есть несколько неочевидных нюансов.

  1. Две видеокарты суммарно потребляют в таком режиме не 500-600 Вт, как можно подумать, а примерно столько же, сколько и одна.

  2. Суммарная производительность у них примерно как у одной, так как слои распределены по обеим и обрабатываются последовательно. Дело в том, что ollama/llama.cpp не умеют распараллеливать вычисления одной модели на несколько GPU. Они загружают разные слои на разные карты, но обработка идет последовательно. Поэтому прирост только в объеме VRAM, а не в скорости.

  3. Зато при этом греться они почти не будут. И шуметь тоже.

  4. Две видеокарты с 10 ГБ VRAM хуже, чем одна с 20 ГБ VRAM, так как при размещении слоев происходит фрагментация VRAM и остаются неиспользуемые области. По-простому, если размер блоков памяти по 4 ГБ, то в каждую карту влезет по 2 блока по 4 ГБ, а всего в 2 карты – 16 ГБ. Если бы память была цельной, то в одну карту на 20 ГБ влезло бы 5 блоков общим объемом 20 ГБ. Можно примерно считать, что 2 GPU по 10 ГБ это примерно как 1 GPU на 16 ГБ.

Запуск LLM обычно приводит к 100% загрузки GPU и он, конечно, начинает греться. Вот здесь CMP 50HX и CMP 90HX ведут себя по-разному.

CMP 90HX показывает 100% нагрузки на GPU, но температура и потребляемая мощность при этом особо не растут, вентиляторы не прибавляют обороты. Вероятно, её производительность очень сильно «задушена» и она не особо напрягается. (Как позже выяснилось при проведении других замеров производительности, она всё же перегревается и не хочет сама разгонять кулера без внешнего управления.)

CMP 50HX так же показывает 100% нагрузки на GPU, вентиляторы почти не прибавляют обороты, но температура резко повышается и Hot Spot достигает 95 градусов. Алгоритм управления кулерами «зажимает» их обороты до 40-45%, не обращая внимания на перегрев. Проблема решается двумя способами.

  1. Установить MSI Afterburner и настроить его на нужное управление вентиляторами. После этого он должен быть в автозагрузке.

  2. Я обнаружил непонятную прошивку BIOS, которая ставится на CMP 50HX. При этом в работе видеокарты ничего не меняется, но вентиляторы начинают нормально управляться, автоматом от 50 до 100% оборотов, не допуская перегрева GPU. Прошивка здесь – VGA Bios Collection: MSI RTX 2080 10 GB | TechPowerUp.

Лайфхак – если ваша CMP 50HX перегревается, а кулер не разгоняется — попробуйте прошить BIOS от MSI RTX 2080 10GB (есть на TechPowerUp).

Секрет производительности в LLM

Вроде бы получились неплохие показатели производительности. Так в чём же дело? «Бублик»-то очень медленно крутится и игрушки дико тормозят. Ещё бы: 0,43 и 0,72 TFLOPS – это не 10 – 20, как у «нормальных» GPU.

Работа LLM на видеокарте RTX  3060 показывает заметно более высокие результаты, но разница не в разы (примерно до 1,5 раз). И почему CMP 50HX и CMP 90HX показывают одинаковые результаты?

Ситуация интересная и не так уж всё и плохо. Синтетические тесты показывали жалкие 0.44 TFLOPS – эти карты должны быть в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060, реальная скорость генерации — 30 токенов/с. Не сходится – похоже, что синтетика меряет что-то не то.

Если посмотреть на «теоретическую производительность», то все показатели CMP 90HX примерно вдвое выше, чем у CMP 50HX, кроме Integer и FP16 (Half Floating Point – вычисления с половинной точностью). Теоретическая производительность в FP16 у них высокая и почти одинаковая – около 22 TFLOPS, а реальную производительность FP16 Cuda-Z не показывает.

Современные LLM-фреймворки, такие как Ollama, для максимальной скорости могут использовать не полноценную точность FP32, а половинную — FP16. Дело в том, что при инференсе LLM высокая точность не нужна, для уменьшения объема данных здесь широко используется квантование (уменьшение разрядности и точности представления чисел). Вычисления в FP16 часто работают быстрее, а данные занимают меньше места. Что, если, ollama работает в FP16, раз они показывают одинаковые результаты и не такие плохие, как должны быть для FP32?

Стандартных бенчмарков и тестов GPU, показывающих реальную производительность GPU отдельно в FP16 я не нашел. Чтобы раскопать их реальную производительность пришлось копнуть глубже и провести небольшое расследование. Поиски привели на GitHub, где нашлось несколько исходников таких тестов. Один из них я и собрал – «OpenCL-Benchmark». А вот и его результат, который подтвердил мою догадку.

Параметр               

CMP 40HX

CMP 50HX

CMP 90HX

RTX 3060

Compute Units

34 at 1650 MHz (2176 cor)

56 at 1545 MHz (3584 cor)

50 at 1710 MHz (6400 cor)

28 at 1777 MHz (3584 cor)

Memory

8191 MB

10239 MB

10239 MB

12287 MB

Cache global

1088 KB global

1792 KB

1400 KB

784 KB

Cache local

48 KB

48 KB

48 KB

48 KB

Buffer global

2047 MB

2559 MB

2559 MB

3071 MB

Buffer const

64 KB

64 KB

64 KB

64 KB

FP64 

0.257 TFLOPs/s (1/32)

0.429 TFLOPs/s (1/24)

0.352 TFLOPs/s (1/64)

0.212 TFLOPs/s (1/64)

FP32 

8.216 TFLOPs/s (1x)

0.433 TFLOPs/s (1/24)

0.715 TFLOPs/s (1/32)

13.039 TFLOPs/s (1x)

FP16 

16.329 TFLOPs/s (2x)

27.220 TFLOPs/s (2x)

22.443 TFLOPs/s (1x)

13.434 TFLOPs/s (1x)

INT64

1.997  TIOPs/s (1/4)

3.228  TIOPs/s (1/4 )

2.638  TIOPs/s (1/8 )

1.804  TIOPs/s (1/8)

INT32

8.108  TIOPs/s (1x)

13.473  TIOPs/s (1x)

11.317  TIOPs/s (1/2)

6.741  TIOPs/s (1/2)

INT16

6.947  TIOPs/s

10.993  TIOPs/s ( 1x )

9.806  TIOPs/s (1/2)

5.872  TIOPs/s (1/2)

INT8 

0.918  TIOPs/s (1/8)

1.715  TIOPs/s (1/8 )

1.439  TIOPs/s (1/16)

25.376  TIOPs/s (2x)

Memory coalesced read

395.52 GB/s

498.10 GB/s

709.26 GB/s

332.44 GB/s

Memorycoalesced write

422.22 GB/s

469.91 GB/s

715.30 GB/s

339.37 GB/s

Memory misalign read

259.79 GB/s

419.61 GB/s

709.03 GB/s

333.33 GB/s

Memory misalign write

79.93 GB/s

125.71 GB/s

76.71 GB/s

65.52 GB/s

PCIe send

1.56 GB/s

1.56 GB/s

0.81 GB/s

8.62 GB/s

PCIe receive

1.56 GB/s

1.56 GB/s

0.81 GB/s

8.25 GB/s

PCIe bidirectional

1.56 GB/s

1.56 GB/s

0.81 GB/s

8.38 GB/s

Вот они, заветные терафлопсы в FP16! CMP 50HX ещё и побыстрее считает оказывается… Обратите внимание на числа в скобках – коэффициент (2x) означает, что GPU поддерживает выполнение двух операций FP16 за такт, это признак высокой оптимизации. Но у CMP 50HX память помедленнее, поэтому в итоге выходит примерно одинаково. А вот около значений по FP32 мы видим коэффициенты «замедления» относительно нормы: 1/24 и 1/32 для CMP 50HX/90HX. Интересно так же, что все карты CMP очень слабы в INT8.

Обратите внимание на скорость PCIexpress: доработанные CMP 40HX и CMP 50HX работают на Gen1 x8, CMP 90HX – на Gen1 x4, RTX 3060 – на Gen3 x8. Ни одна карта здесь на 16 линиях не работала, так как ставились в слот Gen3 x8.

Сравним с другими GPU

Сравнение производительности в FP16
Сравнение производительности в FP16

Ого, да тут есть порох в пороховницах!

По всей видимости, некоторая часть вычислений делается в FP32, а LM Studio использует их больше, что всё несколько тормозит, иначе CMP 50HX была бы ещё быстрее. Так как FP32 замедлена на них раз в 20, то достаточно 5% использования FP32, чтобы снизить общую производительность вдвое. Именно поэтому RTX 3060 их опережает. Вероятно, результаты CMP можно ещё улучшить, если задаться целью и сделать версию движка llama.cpp, оптимизированную строго под FP16.

Немного теоретических предположений о других майнерских картах. CMP 30/70, P102/P104/P106 – все имеют более низкую производительность FP16 и меньше VRAM.

 А что там с шиной PCI-express?

 Расширение до 16 линий возможно, но шина остается PCIexpress 1.1. Это делается аппаратно – допаиванием недостающих конденсаторов на линии PCIexpress. Плата рассчитана на 16 линий, но на большинстве майнерских карт конденсаторы запаяны только на 4 линиях. В майнинговых ригах эти карты часто работают вообще в режиме x1 для экономии слотов и ресурсов материнской платы. Допаяв конденсаторы на остальные линии, мы физически включаем их работу, никаких других блокировок здесь нет.

Может оказаться, что 16 линий всё равно работать не будут. Не все слоты материнских плат поддерживают 16 линий. Обычно только один слот работает на 16 линий. Если есть второй длинный слот, он обычно работает на 8 линий, третий вообще на 4. Посмотрите в таблицу выше: CMP 40HX, CMP 50HX работают на 8 линиях (хотя распаяны все 16), а CMP 90HX – на четырех.

Конденсаторы нужны 0402 емкостью 220 или 100 нФ, напряжение и прочие параметры не важны. Чтобы расширить шину до 16 линий, нужно распаять 24 конденсатора, а до 8 линий – всего 8. Предупреждаю тех, кто не представляет, как их паять – удовольствие ниже среднего, морока ещё та. Поэтому, лучше искать видеокарту с уже напаянными конденсаторами (цена при этом примерно на 1000 дороже).

Не ожидайте многого от расширения шины, GPU не станет работать быстрее! Ну, почти. Переход с 4 линий PCIexpress на 8 немножко увеличивает скорость генерации – примерно на 3%, расширение до 16 линий ещё чуть-чуть – около 1 ток/с. При 8 линиях шина уже не является узким местом. Но «бублик» от этого не будет крутиться быстрее и игрушки не пойдут, если что.

Существенно ускоряется загрузка моделей и контекста, они быстрее начинают отвечать. Расширение до 8 линий ускоряет загрузку примерно в полтора раза, расширение до 16 линий – ещё примерно на четверть (итого где-то вдвое быстрее, чем на 4 линиях). Например, при загрузке с быстрого NVMe накопителя, llama3.1:8b-instruct-q6_K грузится:

  • 4 линии – 10,5 с

  • 8 линий – 7 с

  • 16 линий – 5,5 с.

Для сравнения, в RTX 3060 эта модель грузится за 6,5 с.

Как видно, RTX 3060 c PCIexpress 3.0 показывает те же результаты. Здесь скорость уже ограничивается в том числе и чтением NVMe SSD по 4м линиям, а также скоростью обработки самой видеокарты. При загрузке данных с HDD или SATA SSD всё будет гораздо медленнее, и разница будет меньше.

Сравнение видеокарт

Для RTX примерные данные из интернета – могут быть не точными, я встречал противоречивые результаты. Буду признателен за уточнения, при необходимости внесу изменения.

Модель

FP16 (TFLOPS)

VRAM, ГБ

Ollama для 8b (ток/с)

Цена б/у, т.р.

р/ток/с

CMP 40HX

16

8

26

7

270

CMP 50HX

27

10

30

6

200

CMP 90HX

22

10

30

11

367

RTX 3060

13

12

50

20

400

RTX 3070

20

8

60

25

416

Первое, что мы видим – не только FP16 определяют скорость работы. Очевидно, что частично на результат влияет и производительность FP32.

Более дорогая CMP 90HX ничем не лучше CMP 50HX и приобретать её не имеет смысла (по крайней мере на сегодня, пока неизвестны способы «оживить» её теоретические возможности). А вот CMP 40HX ещё и игрушки тянет, но памяти у неё поменьше.

Итоги

CMP 40HX примерно сопоставима с GeForce RTX 20XX, CMP 50HX в целом слабее GeForce RTX 30XX, но если есть желание попробовать побаловаться и поэкспериментировать, то при их нынешней цене – это неплохой вариант. При вычислениях в Integer или FP16 (half) они примерно соответствует RTX 2060/3060, а возможно и 2070/3070 на 8 ГБ, а 2 штуки с успехом заменят гораздо более дорогую карту на 16 ГБ.

Но для других применений, в том числе игр, обучения серьезных LLM, точных FP32-вычислений (наука, CAD, 3D), они уже не годятся. Исключение – чисто FP64-вычисления (double), они у них вполне себе рабочие и здесь CMP 50HX/90HX на уровне RTX 3070 Ti, но это скорее экзотика.

Ещё об одной жирной ложке дёгтя – отключенных тензорных ядрах и где ещё не место картам CMP поговорим в следующей статье.