Как стать автором
Обновить

Комментарии 16

подскажите пожалуйста на каких gpu тюнили?
сколько примерно времени*датасет уходит?

Учили на GPU T4 x 2
Ушло примерно 35 часов

Учили на GPU T2 x 2
Ушло примерно 35 часов

Т4 это же аналог 2070 супер макскью. Очень медленная карта. Раза в 3 медленнее 3090.

Надо попробовать использовать Liger Kernel(https://github.com/linkedin/Liger-Kernel). Вроде достаточно добавить строку:

model = transformers.AutoModelForCausalLM("path/to/llama/model")

# Adding this line automatically monkey-patches the model with the optimized Liger kernels
apply_liger_kernel_to_llama()

Утверждают, что можно на 20% быстрее обучить и потребление VRAM меньше на 60%

А что посоветуете почитать по части подхода к созданию своего датасета?

На HF-сетах всё красиво, но когда свой делаешь, обычно довольно странный результат.

Весьма актуально. А по дообучению Stable Diffusion есть ли подобный ликбез?

Другой домен, но подумаем)

Можно использовать вместо chatgpt и инферить у себя

Добрый день!
А вот такой дилетантский вопрос: разве YaLM в плане работы с русскоязычным пластом знаний? Ну, чтобы скормить ей кучу книг определенной направленности?
Слышал мнение что GPT4, а теперь и GPT4o - всяко будут лучше.
А что с Llama - не ясно.

И второе, видел статью про оптимизацию работы нейросети для ограниченных ресурсов ("История о том, как фронтендер YaLM 100B на одной RTX 3070 TI запускал"), что думаете о ней?
Спасибо.

Без объяснений выглядит так, как будто статью писал человек, который не разбирается в вопросе, а фармит деньги на рекламе в своём телеграм канале.

Если я хочу научить нейросеть отвечать по теме разработки игр на определенном движке, то как мне предоставить документацию по движку нейросети чтобы она на ней научилась?
А другие темы как научить понимать?

Добавлю комментарии к коду

НЛО прилетело и опубликовало эту надпись здесь

Могли бы русский датасет использовать для приличия, и дополнительно: как сохранить, объединить модель, загружать обученную модель и тд.

Не вижу разницу между вашей статьей и https://www.datacamp.com/tutorial/llama3-fine-tuning-locally

Очень мало понял , не описано, где эта модель находится , куда мы устанавливаем все эти библиотеки? Для кого это написано?

можно запустить скрипт и получите модель в файле

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории