Comments 14
Слитые исходники драйвера есть в паблике, имеет смысл копать их. Таким образом в свое время удалось понять, как включить на этих картах 3D-ускорение. Там же у меня идет и обсуждение печали с FP32.
Какие именно слитые исходники драйверов и где есть? Это который линуксовый один? Или что-то ещё?
Это которые украла группа Lapsus$
Я не могу дать тут ссылку на исходники, но вы можете сами найти её в комментариях к новости.
Детали про внутренности GPU занимательные, но вы забыли про практику. Практика показывает, что скорость генерации СМР 50 в два раза ниже 3060. Это не смотря на "задушенность" каких-то видов вычислений. То есть программно можно определить возможности карты обычными средствами, которые предоставляет библиотека от nvidia. И в результате получить одну вторую вместо одной двадцатой/тридцатой. То, что какие-то программы не умеют использовать библиотеку от nvidia, говорит лишь о качестве управления в фирмах, разрабатывавших эти программы (обычные посредственности).
Второй момент. Ваш результат на сетках с квантованием 4. Запускаем ту же сетку с квантом 8 и вуаля: СМР 50 начинает обгонять 3060. Правда только по генерации. Контекст считает в разы дольше (6 раз). Теоретически можно продолжать и запускать квант 16, возможно результат будет ещё лучше, но я не пробовал. Самое главное - практического смысла нет, ибо рост кванта ведёт к очень незначительному росту качества генерации, а вот памяти в 2 (или даже в 4) раза больше - вынь да положь.
Третий момент. Если ограничения программные, то они в прошивке. Прошивку можно поменять. В вашей прошлой статье даже ссылка есть - полюбопытствуйте.
Я пробовал квантование в 16 бит, работает быстрее всего. С прошивками всё сложно. Думаете, я не пробовал их менять? На все карты всё, что можно и нельзя шил. Единственный результат - изменение работы вентиляторов на 50, а потом и на 90. Ломать прошивки пока не дошёл, но что-то здесь я пока пессимистичен.
начать с того что современные апаратно-программные возможности дают возможности оптимизаций таких как например квантования.
это большие бусты для инференса, но не для задач (до)обучения.
то есть инференс ускоряют в частности за счет того что ниже FP16.
видеокарты Turing неплохи в FP16 и даже могут быть в этом лучше чем Ampere.
FP8 аппаратно вроде как с Ampere.
тут же только тесты инференса.
и по факту указались модели без указаний что из себя они представляют.
Написал, что написалось. Что именно указать? Я дополню.
Хорошо бы протестировать ещё и P102-100 с 10 Гб видеопамяти.
Из плюсов - 10 Гб видеопамяти, 3200 CUDA.
Большой минус - PCIe 1.1 x4.
Посмотрел видео - отлично проявила себя в инференсе. Хуже - при генерации изображений (SD). В целом, кажется лучше, чем CMP 40HX, главным минусом которой является проблемы с тензорными ядрами (и лучами).
Из-за чего она в производительности проигрывает P102-100.
У CMP-карт можно попробовать распаять отсутствующие элементы возле слота PCI-E, чтобы получить все 16 линий и повысить пропускную способность шины в 4 раза. Успешные результаты были (в отличие от P-карт):
NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…