Pull to refresh

Comments 20

Слитые исходники драйвера есть в паблике, имеет смысл копать их. Таким образом в свое время удалось понять, как включить на этих картах 3D-ускорение. Там же у меня идет и обсуждение печали с FP32.

Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?

Это которые украла группа Lapsus$

Я не могу дать тут ссылку на исходники, но вы можете сами найти её в комментариях к новости.

Детали про внутренности GPU занимательные, но вы забыли про практику. Практика показывает, что скорость генерации СМР 50 в два раза ниже 3060. Это не смотря на "задушенность" каких-то видов вычислений. То есть программно можно определить возможности карты обычными средствами, которые предоставляет библиотека от nvidia. И в результате получить одну вторую вместо одной двадцатой/тридцатой. То, что какие-то программы не умеют использовать библиотеку от nvidia, говорит лишь о качестве управления в фирмах, разрабатывавших эти программы (обычные посредственности).

Второй момент. Ваш результат на сетках с квантованием 4. Запускаем ту же сетку с квантом 8 и вуаля: СМР 50 начинает обгонять 3060. Правда только по генерации. Контекст считает в разы дольше (6 раз). Теоретически можно продолжать и запускать квант 16, возможно результат будет ещё лучше, но я не пробовал. Самое главное - практического смысла нет, ибо рост кванта ведёт к очень незначительному росту качества генерации, а вот памяти в 2 (или даже в 4) раза больше - вынь да положь.

Третий момент. Если ограничения программные, то они в прошивке. Прошивку можно поменять. В вашей прошлой статье даже ссылка есть - полюбопытствуйте.

Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.

начать с того что современные апаратно-программные возможности дают возможности оптимизаций таких как например квантования.
это большие бусты для инференса, но не для задач (до)обучения.
то есть инференс ускоряют в частности за счет того что ниже FP16.

видеокарты Turing неплохи в FP16 и даже могут быть в этом лучше чем Ampere.
FP8 аппаратно вроде как с Ampere.

тут же только тесты инференса.
и по факту указались модели без указаний что из себя они представляют.

Написал, что написалось. Что именно указать? Я дополню.

UFO landed and left these words here

Хорошо бы протестировать ещё и P102-100 с 10 Гб видеопамяти.

Да, тоже вот подумываю. Но там для LLM должно быть не очень из-за совсем низкой производительности в FP16.

Для вычислений чисто FP32, судя по всему, она будет лучше, чем CMP 40HX, но так, как в LLM активно используется FP16, получится хуже.

Вот там no-half точно актуально.

Из плюсов - 10 Гб видеопамяти, 3200 CUDA.
Большой минус - PCIe 1.1 x4.
Посмотрел видео - отлично проявила себя в инференсе. Хуже - при генерации изображений (SD). В целом, кажется лучше, чем CMP 40HX, главным минусом которой является проблемы с тензорными ядрами (и лучами).

Из-за чего она в производительности проигрывает P102-100.

У CMP-карт можно попробовать распаять отсутствующие элементы возле слота PCI-E, чтобы получить все 16 линий и повысить пропускную способность шины в 4 раза. Успешные результаты были (в отличие от P-карт):

Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.

Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4

Действительно, как будто х16 4.0. Но возможно, это ошибка и проблема драйвера. У меня то же самое в GPU-Z написано, можно увидеть на скрине в первой статье. Но, к сожалению, на 4.0 не работает, только на 1.1.

И вообще, с CMP 90 проблема куда хуже, чем скорость и ширина шины.

Привет, прочитал обе статьи, очень интересно. Подскажите, а чем, собственно говоря, эти видеокарты плохи, если рассматривать только запуск llm через ollama и lmstudio? Я активно пользуюсь github copilot, но нерезиновые тарифы и желание бОльшей конфиденциальности вынуждают думать о selfhosted моделях, судя по тому что я прочитал в статьях, llm бегают очень даже неплохо. Задумываюсь о сетапе их трёх карт CMP 50HX, чтобы в них помещались большинство моделей. Какие могут быть проблемы по сравнению с нормальными картами? Может ли быть такое, что некоторые модели работают отлично, а некоторые - катастрофически неожиданно медленно, из-за того что используют не тот тип вычислений?

Задумываюсь о сетапе их трёх карт CMP 50HX, чтобы в них помещались большинство моделей.

В 3 карты 50HX ничего особенного не влезет, и накладные расходы на 3х картах не дадут вам ровно 30 Гб. Смотрите лучше в сторону 1 GPU + много RAM.

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Как будто идеально будет скомбинировать, собрать на xeon с 4 канальной озу 32гб (а лучше более) и 3 карты - бомж LLM сервер готов

узкое место у этих майнерских карт как понимаю канал.
а это значит что нет смысла большого давать для него задачи что не вмещается в саму карту.
а в карту войдут небольшие модели.
то есть годится для распараллеливания задач на небольшие модели нейросетей.
не годится для работы с большими моделями нейросетей.

плюс не забываем, дешевые xeon сборки - это PCIE gen3, а не gen4 или gen5.
количество каналов ram - значит со сколькими модулями будет оптимально работать cpu, т.е. если поставить 8 модулей ram это не совсем оптимально.

это и ещё множество других нюансов.

Sign up to leave a comment.

Articles