Обновить

Как я пытался ускорить анализ 12 000 комментариев с помощью GPU за 50 тысяч, но победил процессор

Время на прочтение4 мин
Количество просмотров12K
Всего голосов 20: ↑13 и ↓7+11
Комментарии27

Комментарии 27

ЗакрепленныеЗакреплённые комментарии

FROM pytorch/pytorch:2.7.0-cuda12.8-cudnn9-devel

для RTX 5060Ti 16GB

Задача изначально странно звучит. Вот есть обсуждаемая статья, 100+ комментариев. Пяток хвалит статью, пяток осуждает, а остальные 90+ обсуждение некоторой конкретики, которую, боюсь, что современными LLM (да что там ими, и своим мозгом тоже) сложно отнести к однозначному одобрению/критике.

Согласен, но мне надо было выделить именно "хвалебные"

А как Вы отличали хвалебные комментарии, от "а ты молодец" в стиле "День радио", и от позитивных комментариев к предыдущим оффтопичным комментариям?

Первые два типа для меня одно и тоже.

В модели параметр настраивается.

Когда-то, еще до ковида, SAP Hana анализировала тональность текста (в том числе с оценкой уровня положительности/негатива) в моем пет-проекте практически онлайн, на лету получая комменты из твиттера через его API. А теперь нейросети надо прикручивать)))

Этот мини проект всё таки больше для того чтобы разобраться что это за зверь локальный AI - чем может быть полезным

В конце сентября Nvidia выпустила для Линукс драйвер 580, с ним пробовали? Почему спрашиваю, в моей задаче оцифровки негативов в Линукс только с этой версией драйвера прога denoise AI стала видеть gpu

еще нет

Мне написали что

существует лишь несколько рабочих конфигураций версия Linux+версия Python+версия CUDA+версия PyTorch и для корректной работы без ошибок их нужно знать.

Но я не знаю

FROM pytorch/pytorch:2.7.0-cuda12.8-cudnn9-devel

для RTX 5060Ti 16GB

Как-то тоже пробовал Cuda запустить в докере. Задолбался, так и не заработало ))

После череды падений с CUDA и финальной ошибки «No kernel image» пришлось смириться: GPU в проекте не будет.

Получается cuda по другому и не работает?) Не взлетело почему то, ну да и ладно, cpu справился быстрее, чем то что не запустилось.

Получается, что CPU победил, однако GPU в схватке не участвовал

У меня была конкретная цель: она была достигнута на CPU. После этого решил отложить запуск на GPU.

Возможно в будущих статьях разберусь и опубликую

Я тоже пришёл к подобным выводам, но на макбуке с M4 Pro. Пробовал обучать простую MLP модель в Keras на GPU, обучалась медленно. Кажется, было очень много синхронизаций CPU и GPU, GPU не нагружался толком. Когда перешёл на CPU, оказалось, что он в одном потоке в разы быстрее! Можно было параллельно обучать несколько моделей с разными гиперпараметрами на разных ядрах, чтобы быстрее найти лучшую конфигурацию.

Так, ну кроме того что автор просто не смог запустить gpu инференс - меня очень смутило что комментарии обрабатываются один за одним а не пачкой. В такой ситуации вся скорость gpu будет уничтожена в ноль временем обмена данными между оперативной памятью и video ram.

Отвертку надо крутить а не стучать по ней молотком))))

спасибо за отзыв и замечание на счёт комментарии обрабатываются один за одним а не пачкой

На линухе запустить инференс на gpu с CUDA как 2 пальца об асфальт, я запускал инференс написанной под CUDA нейронки на AMD на Windows через ZLUDA

Просто не разобрались, как на GPU правильно запускать модель ИИ. Ollama и llama.cpp без проблем разделяют работу ИИ между GPU и CPU, если модели не хватает ресурсов для GPU. Еще важны параметры запуска модели. Сами модели бывают разные по квантизации, соответственно разный объём памяти они занимают. Падение GPU часто связано с неудачным выбором длины модели и неправильной ее настройкой для запуска. Используемая модель в статье при запуске модель должна занимать в районе 10гиг памяти видеокарты, в противном случае при работе cuda ядер и обработке контента память запросто может перешагнуть 16гиг памяти VRAM и привести к падению задачи.

Странно, я ожидал сравнения двух подходов, а оказалось: "с cuda я не разобрался, поэтому запустил на cpu". 16 gb маловато для разумных моделей, по моему мнению.

Видеокарты недешевы, если больше 16 Гб, то цена сразу резко вверх скачет на больше 200 т.р.

Я не особо слежу, но разница прямо очень большая между 16 Гб и даже 20 Гб

БУ 3090 - 60к за 24гб врам, пока что самое выгодное решение на рынке. Скоро будет 5070tis с (по слухам) 24гб и уже нативной поддержкой fp8, может она сможет сместить 3090, и то не факт.

Завтра, в этот вторник у меня будет статья про модель с которой всё хорошо - я разобрался и на GPU

Там берт, берт можно тюнить без лоры на 2080ti спокойно, не то что инференсить.

Почему Bert, а не SentenceBert? Вам ChatGPT подсказал Rubert Tiny или на это были свои причины? Просто есть, пожалуй, ЛУЧШИЕ модели для этих целей: RoSBERTA и USER2

А почему они лучшие?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации