Pull to refresh

Comments 18

Пробовал в ноябре прошлого года вроде бы p102-100 она называлась, в общем перешитая с 10 гб врам, на авито 4000р тогда были. Запускал на ней LLM gemma2 7b. Результаты удручающие - практически не быстрее генерации на cpu. Ну ладно, чуть быстрее)

Самый главный прикол этих видюх - под них очень своеобразные дрова, которые не сразу найдешь (и не со всем софтом работают), а товарищ под линуксом так и не нашел, у которого я карту брал потестить. Тоже думал - ух заживем, целых 10гб врама за 4 тыщи, чуда не случилось.

а 1080ti по сравнению с P102-100 быстрее работает в этой задаче?

У меня не было 1080ti, была только 1060 6Gb но я такими нагрузками старичка стараюсь не грузить. Да и врама у него маловато. Впрочем на задачах типа SD 1060 по ощущениям раз в 10 медленнее 3060 (которые у меня основные), там размер врам не очень важен, потому что есть модельки и по 2Гб рисующие вполне сносно, все упирается в гпу.

ниже я привёл данные с одного сайта по производительности.
gemma2 7b предположительно на fp16 в коей p102-100 совсем печален, если бы пробовали что то из fp32 то было бы получше.

насчёт 3D не знаю, но для обучения нейросетей ключевые параметры 2: объем памяти и производительность в FP16/FP32.
p102-100 5гб - FP16 (168.3 GFLOPS), FP32 (10.77 TFLOPS) ~15$/шт бу
3090 24гб - FP16/FP32 ( 35.58 TFLOPS ) ~ 600-800$/шт бу
5090 32гб - FP16/FP32 ( 104.8 TFLOPS ) ~2800$ новая

Да, у P-серии действительно печальная производительность в FP16:

p102-100 168 GFlops

p104-100 104 GFlops

p106-100 68 GFlops

У серии CMP получше с этим:

CMP30HX 10.05 Tflops

CMP40HX 15.21 Tflops

у архитектуры Turing 12нм производительность FP16 выше чем FP32.
по FP16 те же rtx 20 неплохи наверно по сравнению с rtx 30.

Надо учитывать потери производительности при переливании из карты в карту если модель не помещается в одну. Сильно зависит от модели, но примерно 20-30% скорее всего будут потеряны

sli хвосты на таких картах ушли в прошлое?

если задача требует интенсивного ввода-вывода, то у майнинговых карт всё плохо с шиной pci-e, если мне склероз не изменяет, там x1

эта задача не требует. одна линия PCI-e на каждую карту загружена на 10-15%

шину обычно можно расширить, допаяв smd керамику на диф. линии. на p106-100 разгоняют до pci-ex16@1.1

Каша в голове, только p106 - 100 имеет 16 линий (из всех карт что шли на паскале) и ограничение на 4 линии для всех остальных (при этом ограничение в самом чипе). С тьюрингами (ака цмп) проще, там ограничение физическое и связанно с фильтрующими конденсаторами, но у них есть ограничения на блоки (это сильнее всего заметно на cmp50 и выше, об этом много писали на гитхабе патчера).

На задачах LLM там и х16 не поможет, скорости нужны на простое чтение просто космические. Которые обеспечивают vram на видеокартах 30хх и выше. Ну или ОЗУ мак-чего то там, за лям рублей.

Обучение нейросетей и запуск моделей это очень разные задачи. Запускать модели на старых майнинговах картах-явно плохая идея. А попробовать обучать можно.

Я когда занимался этим профессионально как 3д артист, я максовал процессор и оперативку но видеокарта была самая простая и дешёвая, вроде как gt420 1gb. Единственное требование к ней было - чтобы нужную версию директыкса поддерживала.

Тогда собрал двухпроцессорный комп из китайской мамки и двух поддержанных ксеонов, было очень эффективно.

Но тут стоит сказать что хоть я и делал весь vfx процесс от начала до конца (zbrush, ps, Maya/Arnold, Houdini, Nuke итд) оно все было CPU-only.

Гпу в арнольде тогда был не продакшен-реди и многих супер критичных на тот момент фич не умел (я в основном делал фоторил людей) - скаттеринг между несколькими объектами, randomwalk/quantized diffusion алгоритмы рассеивания, autobump in SSS, и так далее. В общем, цпу без вариантов.

в meshroomCL есть галочка "use only CPU". Время обработки увеличивается раз в 20-30 по сравнению с видеокартой. (проц 12500H)

Зионы иногда дружат с постпродакшном очень хорошо, например через ffmpeg. Когда на всех потоках, это очень эпично по скорости.

Sign up to leave a comment.

Articles