Комментарии 27
Задача изначально странно звучит. Вот есть обсуждаемая статья, 100+ комментариев. Пяток хвалит статью, пяток осуждает, а остальные 90+ обсуждение некоторой конкретики, которую, боюсь, что современными LLM (да что там ими, и своим мозгом тоже) сложно отнести к однозначному одобрению/критике.
Когда-то, еще до ковида, SAP Hana анализировала тональность текста (в том числе с оценкой уровня положительности/негатива) в моем пет-проекте практически онлайн, на лету получая комменты из твиттера через его API. А теперь нейросети надо прикручивать)))
В конце сентября Nvidia выпустила для Линукс драйвер 580, с ним пробовали? Почему спрашиваю, в моей задаче оцифровки негативов в Линукс только с этой версией драйвера прога denoise AI стала видеть gpu
Мне написали что
существует лишь несколько рабочих конфигураций версия Linux+версия Python+версия CUDA+версия PyTorch и для корректной работы без ошибок их нужно знать.
Но я не знаю
Как-то тоже пробовал Cuda запустить в докере. Задолбался, так и не заработало ))
После череды падений с CUDA и финальной ошибки «No kernel image» пришлось смириться: GPU в проекте не будет.
Получается cuda по другому и не работает?) Не взлетело почему то, ну да и ладно, cpu справился быстрее, чем то что не запустилось.
Получается, что CPU победил, однако GPU в схватке не участвовал
Вот здесь у меня работало в проекте: https://habr.com/ru/articles/935098/
Я тоже пришёл к подобным выводам, но на макбуке с M4 Pro. Пробовал обучать простую MLP модель в Keras на GPU, обучалась медленно. Кажется, было очень много синхронизаций CPU и GPU, GPU не нагружался толком. Когда перешёл на CPU, оказалось, что он в одном потоке в разы быстрее! Можно было параллельно обучать несколько моделей с разными гиперпараметрами на разных ядрах, чтобы быстрее найти лучшую конфигурацию.
Так, ну кроме того что автор просто не смог запустить gpu инференс - меня очень смутило что комментарии обрабатываются один за одним а не пачкой. В такой ситуации вся скорость gpu будет уничтожена в ноль временем обмена данными между оперативной памятью и video ram.
Отвертку надо крутить а не стучать по ней молотком))))
Просто не разобрались, как на GPU правильно запускать модель ИИ. Ollama и llama.cpp без проблем разделяют работу ИИ между GPU и CPU, если модели не хватает ресурсов для GPU. Еще важны параметры запуска модели. Сами модели бывают разные по квантизации, соответственно разный объём памяти они занимают. Падение GPU часто связано с неудачным выбором длины модели и неправильной ее настройкой для запуска. Используемая модель в статье при запуске модель должна занимать в районе 10гиг памяти видеокарты, в противном случае при работе cuda ядер и обработке контента память запросто может перешагнуть 16гиг памяти VRAM и привести к падению задачи.
Странно, я ожидал сравнения двух подходов, а оказалось: "с cuda я не разобрался, поэтому запустил на cpu". 16 gb маловато для разумных моделей, по моему мнению.
Видеокарты недешевы, если больше 16 Гб, то цена сразу резко вверх скачет на больше 200 т.р.
Я не особо слежу, но разница прямо очень большая между 16 Гб и даже 20 Гб
Завтра, в этот вторник у меня будет статья про модель с которой всё хорошо - я разобрался и на GPU
Там берт, берт можно тюнить без лоры на 2080ti спокойно, не то что инференсить.
Почему Bert, а не SentenceBert? Вам ChatGPT подсказал Rubert Tiny или на это были свои причины? Просто есть, пожалуй, ЛУЧШИЕ модели для этих целей: RoSBERTA и USER2


Как я пытался ускорить анализ 12 000 комментариев с помощью GPU за 50 тысяч, но победил процессор