Comments 18
Пробовал в ноябре прошлого года вроде бы p102-100 она называлась, в общем перешитая с 10 гб врам, на авито 4000р тогда были. Запускал на ней LLM gemma2 7b. Результаты удручающие - практически не быстрее генерации на cpu. Ну ладно, чуть быстрее)
Самый главный прикол этих видюх - под них очень своеобразные дрова, которые не сразу найдешь (и не со всем софтом работают), а товарищ под линуксом так и не нашел, у которого я карту брал потестить. Тоже думал - ух заживем, целых 10гб врама за 4 тыщи, чуда не случилось.
а 1080ti по сравнению с P102-100 быстрее работает в этой задаче?
У меня не было 1080ti, была только 1060 6Gb но я такими нагрузками старичка стараюсь не грузить. Да и врама у него маловато. Впрочем на задачах типа SD 1060 по ощущениям раз в 10 медленнее 3060 (которые у меня основные), там размер врам не очень важен, потому что есть модельки и по 2Гб рисующие вполне сносно, все упирается в гпу.
ниже я привёл данные с одного сайта по производительности.
gemma2 7b предположительно на fp16 в коей p102-100 совсем печален, если бы пробовали что то из fp32 то было бы получше.
насчёт 3D не знаю, но для обучения нейросетей ключевые параметры 2: объем памяти и производительность в FP16/FP32.
p102-100 5гб - FP16 (168.3 GFLOPS), FP32 (10.77 TFLOPS) ~15$/шт бу
3090 24гб - FP16/FP32 ( 35.58 TFLOPS ) ~ 600-800$/шт бу
5090 32гб - FP16/FP32 ( 104.8 TFLOPS ) ~2800$ новая
Да, у P-серии действительно печальная производительность в FP16:
p102-100 168 GFlops
p104-100 104 GFlops
p106-100 68 GFlops
У серии CMP получше с этим:
CMP30HX 10.05 Tflops
CMP40HX 15.21 Tflops
Надо учитывать потери производительности при переливании из карты в карту если модель не помещается в одну. Сильно зависит от модели, но примерно 20-30% скорее всего будут потеряны
если задача требует интенсивного ввода-вывода, то у майнинговых карт всё плохо с шиной pci-e, если мне склероз не изменяет, там x1
эта задача не требует. одна линия PCI-e на каждую карту загружена на 10-15%
шину обычно можно расширить, допаяв smd керамику на диф. линии. на p106-100 разгоняют до pci-ex16@1.1
Каша в голове, только p106 - 100 имеет 16 линий (из всех карт что шли на паскале) и ограничение на 4 линии для всех остальных (при этом ограничение в самом чипе). С тьюрингами (ака цмп) проще, там ограничение физическое и связанно с фильтрующими конденсаторами, но у них есть ограничения на блоки (это сильнее всего заметно на cmp50 и выше, об этом много писали на гитхабе патчера).
На задачах LLM там и х16 не поможет, скорости нужны на простое чтение просто космические. Которые обеспечивают vram на видеокартах 30хх и выше. Ну или ОЗУ мак-чего то там, за лям рублей.
Я когда занимался этим профессионально как 3д артист, я максовал процессор и оперативку но видеокарта была самая простая и дешёвая, вроде как gt420 1gb. Единственное требование к ней было - чтобы нужную версию директыкса поддерживала.
Тогда собрал двухпроцессорный комп из китайской мамки и двух поддержанных ксеонов, было очень эффективно.
Но тут стоит сказать что хоть я и делал весь vfx процесс от начала до конца (zbrush, ps, Maya/Arnold, Houdini, Nuke итд) оно все было CPU-only.
Гпу в арнольде тогда был не продакшен-реди и многих супер критичных на тот момент фич не умел (я в основном делал фоторил людей) - скаттеринг между несколькими объектами, randomwalk/quantized diffusion алгоритмы рассеивания, autobump in SSS, и так далее. В общем, цпу без вариантов.
ПК из трех майнинговых GPU для работы с 3D