empenoso 7 окт в 00:21

Как я пытался ускорить анализ 12 000 комментариев с помощью GPU за 50 тысяч, но победил процессор

4 мин

12K

Open source * Настройка Linux * Python * Контент и копирайтинг * Машинное обучение *

+11

Комментарии 27

Закреплённые комментарии

empenoso 11 окт в 10:38

FROM pytorch/pytorch:2.7.0-cuda12.8-cudnn9-devel

для RTX 5060Ti 16GB

sic 7 окт в 00:33

Задача изначально странно звучит. Вот есть обсуждаемая статья, 100+ комментариев. Пяток хвалит статью, пяток осуждает, а остальные 90+ обсуждение некоторой конкретики, которую, боюсь, что современными LLM (да что там ими, и своим мозгом тоже) сложно отнести к однозначному одобрению/критике.

empenoso 7 окт в 01:06

Согласен, но мне надо было выделить именно "хвалебные"

muxa_ru 7 окт в 02:05

А как Вы отличали хвалебные комментарии, от "а ты молодец" в стиле "День радио", и от позитивных комментариев к предыдущим оффтопичным комментариям?

empenoso 7 окт в 02:35

Первые два типа для меня одно и тоже.

В модели параметр настраивается.

tuxi 7 окт в 00:41

Когда-то, еще до ковида, SAP Hana анализировала тональность текста (в том числе с оценкой уровня положительности/негатива) в моем пет-проекте практически онлайн, на лету получая комменты из твиттера через его API. А теперь нейросети надо прикручивать)))

empenoso 7 окт в 01:08

Этот мини проект всё таки больше для того чтобы разобраться что это за зверь локальный AI - чем может быть полезным

rry74 7 окт в 04:14

В конце сентября Nvidia выпустила для Линукс драйвер 580, с ним пробовали? Почему спрашиваю, в моей задаче оцифровки негативов в Линукс только с этой версией драйвера прога denoise AI стала видеть gpu

empenoso 7 окт в 04:15

еще нет

empenoso 7 окт в 10:07

Мне написали что

существует лишь несколько рабочих конфигураций версия Linux+версия Python+версия CUDA+версия PyTorch и для корректной работы без ошибок их нужно знать.

Но я не знаю

empenoso 11 окт в 10:38

FROM pytorch/pytorch:2.7.0-cuda12.8-cudnn9-devel

для RTX 5060Ti 16GB

Akuma 7 окт в 14:24

Как-то тоже пробовал Cuda запустить в докере. Задолбался, так и не заработало ))

rikert 7 окт в 16:08

После череды падений с CUDA и финальной ошибки «No kernel image» пришлось смириться: GPU в проекте не будет.

Получается cuda по другому и не работает?) Не взлетело почему то, ну да и ладно, cpu справился быстрее, чем то что не запустилось.

sshmakov 7 окт в 19:55

Получается, что CPU победил, однако GPU в схватке не участвовал

empenoso 8 окт в 01:31

У меня была конкретная цель: она была достигнута на CPU. После этого решил отложить запуск на GPU.

Возможно в будущих статьях разберусь и опубликую

empenoso 8 окт в 02:03

Вот здесь у меня работало в проекте: https://habr.com/ru/articles/935098/

devoln 8 окт в 06:41

Я тоже пришёл к подобным выводам, но на макбуке с M4 Pro. Пробовал обучать простую MLP модель в Keras на GPU, обучалась медленно. Кажется, было очень много синхронизаций CPU и GPU, GPU не нагружался толком. Когда перешёл на CPU, оказалось, что он в одном потоке в разы быстрее! Можно было параллельно обучать несколько моделей с разными гиперпараметрами на разных ядрах, чтобы быстрее найти лучшую конфигурацию.

FruTb 8 окт в 23:19

Так, ну кроме того что автор просто не смог запустить gpu инференс - меня очень смутило что комментарии обрабатываются один за одним а не пачкой. В такой ситуации вся скорость gpu будет уничтожена в ноль временем обмена данными между оперативной памятью и video ram.

Отвертку надо крутить а не стучать по ней молотком))))

empenoso 9 окт в 03:50

спасибо за отзыв и замечание на счёт комментарии обрабатываются один за одним а не пачкой

Xiran 12 окт в 04:01

На линухе запустить инференс на gpu с CUDA как 2 пальца об асфальт, я запускал инференс написанной под CUDA нейронки на AMD на Windows через ZLUDA

aladkoi 10 окт в 21:51

Просто не разобрались, как на GPU правильно запускать модель ИИ. Ollama и llama.cpp без проблем разделяют работу ИИ между GPU и CPU, если модели не хватает ресурсов для GPU. Еще важны параметры запуска модели. Сами модели бывают разные по квантизации, соответственно разный объём памяти они занимают. Падение GPU часто связано с неудачным выбором длины модели и неправильной ее настройкой для запуска. Используемая модель в статье при запуске модель должна занимать в районе 10гиг памяти видеокарты, в противном случае при работе cuda ядер и обработке контента память запросто может перешагнуть 16гиг памяти VRAM и привести к падению задачи.

bykostya 12 окт в 18:51

Странно, я ожидал сравнения двух подходов, а оказалось: "с cuda я не разобрался, поэтому запустил на cpu". 16 gb маловато для разумных моделей, по моему мнению.

empenoso 13 окт в 01:32

Видеокарты недешевы, если больше 16 Гб, то цена сразу резко вверх скачет на больше 200 т.р.

Я не особо слежу, но разница прямо очень большая между 16 Гб и даже 20 Гб

Theio 14 окт в 17:11

БУ 3090 - 60к за 24гб врам, пока что самое выгодное решение на рынке. Скоро будет 5070tis с (по слухам) 24гб и уже нативной поддержкой fp8, может она сможет сместить 3090, и то не факт.

empenoso 13 окт в 01:35

Завтра, в этот вторник у меня будет статья про модель с которой всё хорошо - я разобрался и на GPU

Theio 14 окт в 17:08

Там берт, берт можно тюнить без лоры на 2080ti спокойно, не то что инференсить.

Timmek 15 окт в 05:06

Почему Bert, а не SentenceBert? Вам ChatGPT подсказал Rubert Tiny или на это были свои причины? Просто есть, пожалуй, ЛУЧШИЕ модели для этих целей: RoSBERTA и USER2

empenoso 15 окт в 12:44

А почему они лучшие?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий