Aleron75 Aug 28 2024 at 07:07

Дообучаем Llama 3.1 у себя дома

Medium

8 min

33K

Python*Programming*Machine learning*Artificial Intelligence

Tutorial

+24

Comments 19

rbnikitin Aug 28 2024 at 07:51

подскажите пожалуйста на каких gpu тюнили?
сколько примерно времени*датасет уходит?

Aleron75 Aug 28 2024 at 08:42

Учили на GPU T4 x 2
Ушло примерно 35 часов

Aleron75 Aug 28 2024 at 07:53

Учили на GPU T2 x 2
Ушло примерно 35 часов

melodictsk Aug 28 2024 at 11:50

Т4 это же аналог 2070 супер макскью. Очень медленная карта. Раза в 3 медленнее 3090.

AigizK Aug 28 2024 at 12:19

Надо попробовать использовать Liger Kernel(https://github.com/linkedin/Liger-Kernel). Вроде достаточно добавить строку:

model = transformers.AutoModelForCausalLM("path/to/llama/model")

# Adding this line automatically monkey-patches the model with the optimized Liger kernels
apply_liger_kernel_to_llama()

Утверждают, что можно на 20% быстрее обучить и потребление VRAM меньше на 60%

dmiche Aug 28 2024 at 14:12

А что посоветуете почитать по части подхода к созданию своего датасета?

На HF-сетах всё красиво, но когда свой делаешь, обычно довольно странный результат.

codecity Aug 28 2024 at 19:01

Весьма актуально. А по дообучению Stable Diffusion есть ли подобный ликбез?

Aleron75 Aug 29 2024 at 14:57

Другой домен, но подумаем)

Rustemhak Aug 29 2024 at 05:31

Можно использовать вместо chatgpt и инферить у себя

SerJ_82 Aug 29 2024 at 09:55

Добрый день!
А вот такой дилетантский вопрос: разве YaLM в плане работы с русскоязычным пластом знаний? Ну, чтобы скормить ей кучу книг определенной направленности?
Слышал мнение что GPT4, а теперь и GPT4o - всяко будут лучше.
А что с Llama - не ясно.

И второе, видел статью про оптимизацию работы нейросети для ограниченных ресурсов ("История о том, как фронтендер YaLM 100B на одной RTX 3070 TI запускал"), что думаете о ней?
Спасибо.

cinme Aug 29 2024 at 13:21

Без объяснений выглядит так, как будто статью писал человек, который не разбирается в вопросе, а фармит деньги на рекламе в своём телеграм канале.

Если я хочу научить нейросеть отвечать по теме разработки игр на определенном движке, то как мне предоставить документацию по движку нейросети чтобы она на ней научилась?
А другие темы как научить понимать?