WebSlave Sep 18 2025 at 19:06

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

Easy

17 min

12K

GPGPU * Computer hardwareOld hardwareVideo cardsArtificial Intelligence

+24

Comments 21

dartraiden Sep 19 2025 at 01:19

Слитые исходники драйвера есть в паблике, имеет смысл копать их. Таким образом в свое время удалось понять, как включить на этих картах 3D-ускорение. Там же у меня идет и обсуждение печали с FP32.

WebSlave Sep 19 2025 at 14:25

Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?

dartraiden Sep 19 2025 at 18:48

Это которые украла группа Lapsus$

Я не могу дать тут ссылку на исходники, но вы можете сами найти её в комментариях к новости.

murkin-kot Sep 19 2025 at 07:34

Детали про внутренности GPU занимательные, но вы забыли про практику. Практика показывает, что скорость генерации СМР 50 в два раза ниже 3060. Это не смотря на "задушенность" каких-то видов вычислений. То есть программно можно определить возможности карты обычными средствами, которые предоставляет библиотека от nvidia. И в результате получить одну вторую вместо одной двадцатой/тридцатой. То, что какие-то программы не умеют использовать библиотеку от nvidia, говорит лишь о качестве управления в фирмах, разрабатывавших эти программы (обычные посредственности).

Второй момент. Ваш результат на сетках с квантованием 4. Запускаем ту же сетку с квантом 8 и вуаля: СМР 50 начинает обгонять 3060. Правда только по генерации. Контекст считает в разы дольше (6 раз). Теоретически можно продолжать и запускать квант 16, возможно результат будет ещё лучше, но я не пробовал. Самое главное - практического смысла нет, ибо рост кванта ведёт к очень незначительному росту качества генерации, а вот памяти в 2 (или даже в 4) раза больше - вынь да положь.

Третий момент. Если ограничения программные, то они в прошивке. Прошивку можно поменять. В вашей прошлой статье даже ссылка есть - полюбопытствуйте.

WebSlave Sep 19 2025 at 13:46

Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.

Shado_vi Sep 19 2025 at 11:23

начать с того что современные апаратно-программные возможности дают возможности оптимизаций таких как например квантования.
это большие бусты для инференса, но не для задач (до)обучения.
то есть инференс ускоряют в частности за счет того что ниже FP16.

видеокарты Turing неплохи в FP16 и даже могут быть в этом лучше чем Ampere.
FP8 аппаратно вроде как с Ampere.

тут же только тесты инференса.
и по факту указались модели без указаний что из себя они представляют.

WebSlave Sep 19 2025 at 13:48

Написал, что написалось. Что именно указать? Я дополню.

UFO landed and left these words here

pro777 Oct 2 2025 at 14:48

Хорошо бы протестировать ещё и P102-100 с 10 Гб видеопамяти.

WebSlave Oct 2 2025 at 15:06

Да, тоже вот подумываю. Но там для LLM должно быть не очень из-за совсем низкой производительности в FP16.

Для вычислений чисто FP32, судя по всему, она будет лучше, чем CMP 40HX, но так, как в LLM активно используется FP16, получится хуже.

Вот там no-half точно актуально.

pro777 Oct 2 2025 at 20:42

Из плюсов - 10 Гб видеопамяти, 3200 CUDA.
Большой минус - PCIe 1.1 x4.
Посмотрел видео - отлично проявила себя в инференсе. Хуже - при генерации изображений (SD). В целом, кажется лучше, чем CMP 40HX, главным минусом которой является проблемы с тензорными ядрами (и лучами).

pro777 Oct 3 2025 at 15:23

Из-за чего она в производительности проигрывает P102-100.

dartraiden Oct 5 2025 at 21:29

У CMP-карт можно попробовать распаять отсутствующие элементы возле слота PCI-E, чтобы получить все 16 линий и повысить пропускную способность шины в 4 раза. Успешные результаты были (в отличие от P-карт):

WebSlave Oct 6 2025 at 04:03

Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.

Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4

Chugumoto Dec 4 2025 at 07:57

Вопрос. А где это видно? У меня просто на 90 пишет что вообще х16 4.0... но да, висит на х1 1.1

https://gpuz.techpowerup.com/25/12/04/vun.png

WebSlave Dec 4 2025 at 17:39

Действительно, как будто х16 4.0. Но возможно, это ошибка и проблема драйвера. У меня то же самое в GPU-Z написано, можно увидеть на скрине в первой статье. Но, к сожалению, на 4.0 не работает, только на 1.1.

И вообще, с CMP 90 проблема куда хуже, чем скорость и ширина шины.

Chugumoto Dec 8 2025 at 07:13

Кстати. Нашел скриншот. У вас как и у меня 94.02.74.00.01 версия биос.

А другие не пробовали? на течпауэрап точно есть 94.02.74.00.05 и 94.02.74.00.07

Пробовал у своей, правда для майнинга qhash.

И температуру у меня контролирует, ограничивая 65 градусами и управляет вентиляторами MSI Afterburner.

Так например 05 судя по звуку вентиляторов и тахометру раскручивает вертушки на 100% и никак ими не управляет.

07 не упираясь в температуру 65 градусов стала больше потреблять, выставила большие частоты, чем у 01, соответственно большая скорость получилась... но при этом энергоэффективность стала ниже, чем на 01

Electroma Nov 13 2025 at 21:52

Привет, прочитал обе статьи, очень интересно. Подскажите, а чем, собственно говоря, эти видеокарты плохи, если рассматривать только запуск llm через ollama и lmstudio? Я активно пользуюсь github copilot, но нерезиновые тарифы и желание бОльшей конфиденциальности вынуждают думать о selfhosted моделях, судя по тому что я прочитал в статьях, llm бегают очень даже неплохо. Задумываюсь о сетапе их трёх карт CMP 50HX, чтобы в них помещались большинство моделей. Какие могут быть проблемы по сравнению с нормальными картами? Может ли быть такое, что некоторые модели работают отлично, а некоторые - катастрофически неожиданно медленно, из-за того что используют не тот тип вычислений?

Shannon Nov 13 2025 at 22:23

Задумываюсь о сетапе их трёх карт CMP 50HX, чтобы в них помещались большинство моделей.

В 3 карты 50HX ничего особенного не влезет, и накладные расходы на 3х картах не дадут вам ровно 30 Гб. Смотрите лучше в сторону 1 GPU + много RAM.

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Electroma Nov 13 2025 at 22:30

Как будто идеально будет скомбинировать, собрать на xeon с 4 канальной озу 32гб (а лучше более) и 3 карты - бомж LLM сервер готов

Shado_vi Nov 16 2025 at 04:01

узкое место у этих майнерских карт как понимаю канал.
а это значит что нет смысла большого давать для него задачи что не вмещается в саму карту.
а в карту войдут небольшие модели.
то есть годится для распараллеливания задач на небольшие модели нейросетей.
не годится для работы с большими моделями нейросетей.

плюс не забываем, дешевые xeon сборки - это PCIE gen3, а не gen4 или gen5.
количество каналов ram - значит со сколькими модулями будет оптимально работать cpu, т.е. если поставить 8 модулей ram это не совсем оптимально.

это и ещё множество других нюансов.