All streams
Search
Write a publication
Pull to refresh

Comments 14

Слитые исходники драйвера есть в паблике, имеет смысл копать их. Таким образом в свое время удалось понять, как включить на этих картах 3D-ускорение. Там же у меня идет и обсуждение печали с FP32.

Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?

Это которые украла группа Lapsus$

Я не могу дать тут ссылку на исходники, но вы можете сами найти её в комментариях к новости.

Детали про внутренности GPU занимательные, но вы забыли про практику. Практика показывает, что скорость генерации СМР 50 в два раза ниже 3060. Это не смотря на "задушенность" каких-то видов вычислений. То есть программно можно определить возможности карты обычными средствами, которые предоставляет библиотека от nvidia. И в результате получить одну вторую вместо одной двадцатой/тридцатой. То, что какие-то программы не умеют использовать библиотеку от nvidia, говорит лишь о качестве управления в фирмах, разрабатывавших эти программы (обычные посредственности).

Второй момент. Ваш результат на сетках с квантованием 4. Запускаем ту же сетку с квантом 8 и вуаля: СМР 50 начинает обгонять 3060. Правда только по генерации. Контекст считает в разы дольше (6 раз). Теоретически можно продолжать и запускать квант 16, возможно результат будет ещё лучше, но я не пробовал. Самое главное - практического смысла нет, ибо рост кванта ведёт к очень незначительному росту качества генерации, а вот памяти в 2 (или даже в 4) раза больше - вынь да положь.

Третий момент. Если ограничения программные, то они в прошивке. Прошивку можно поменять. В вашей прошлой статье даже ссылка есть - полюбопытствуйте.

Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.

начать с того что современные апаратно-программные возможности дают возможности оптимизаций таких как например квантования.
это большие бусты для инференса, но не для задач (до)обучения.
то есть инференс ускоряют в частности за счет того что ниже FP16.

видеокарты Turing неплохи в FP16 и даже могут быть в этом лучше чем Ampere.
FP8 аппаратно вроде как с Ampere.

тут же только тесты инференса.
и по факту указались модели без указаний что из себя они представляют.

Написал, что написалось. Что именно указать? Я дополню.

Ошибка в статье про amd, у amd в профессиональных картах работают вычисления матриц начиная от amd instinct mi100, и скорость токенов там выше любой игорой Nvidia и майинговой темболее, но все же главное в вычисления ИИ это скорость памяти HBM2 даёт прикупить gddr6 и GDDR7

Хорошо бы протестировать ещё и P102-100 с 10 Гб видеопамяти.

Да, тоже вот подумываю. Но там для LLM должно быть не очень из-за совсем низкой производительности в FP16.

Для вычислений чисто FP32, судя по всему, она будет лучше, чем CMP 40HX, но так, как в LLM активно используется FP16, получится хуже.

Вот там no-half точно актуально.

Из плюсов - 10 Гб видеопамяти, 3200 CUDA.
Большой минус - PCIe 1.1 x4.
Посмотрел видео - отлично проявила себя в инференсе. Хуже - при генерации изображений (SD). В целом, кажется лучше, чем CMP 40HX, главным минусом которой является проблемы с тензорными ядрами (и лучами).

Из-за чего она в производительности проигрывает P102-100.

У CMP-карт можно попробовать распаять отсутствующие элементы возле слота PCI-E, чтобы получить все 16 линий и повысить пропускную способность шины в 4 раза. Успешные результаты были (в отличие от P-карт):

Успешных результатов полно, как я понимаю, с этим проблем нет. У меня CMP 40HX и 50HX распаяны. 50 сам паял, 40 сразу купил распаянной, их много таких продается, 90 не стал паять.

Там в GPU-Z видно, что они могут работать в PCIe 1.1 х16, в отличие от серии P, где сразу видно, что только PCIe 1.1 х4

Sign up to leave a comment.

Articles