ruslandevlabs 21 июл в 18:16

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

3 мин

6.7K

Искусственный интеллект

Из песочницы

+32

Комментарии 18

TsarS 21 июл в 18:27

Просто интересно, сколько обошлась работа с Н100?

ruslandevlabs 22 июл в 13:27

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

arheops 21 июл в 18:49

А обучалася ли вообще gpt-3.5 на русскоязычных данных?

Moog_Prodigy 21 июл в 19:15

Конечно обучался, изначально там много языков.

beatleboy 21 июл в 20:48

Автору спасибо. Хорошая моделька получилась. Я сконвертил ее для Ollama. И как мне кажется эта модель поинтересней чем выпущенная вчера T-lite, работает шустрей, не душнит как T-lite.

Может кому-то тоже будет интересно сравнить на Ollama модель T-lite:instruct 8b от Т-банка с моделью llama-3-8b-gpt-4o-ru1.0 от @abstract_chaos

N-Cube 21 июл в 21:15

Заголовок полный кликбейт:

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

И первая же фраза опровергает обещанное в заголовке:

я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench

Оказывается, на деле речь лишь об одном бенчмарке идет.

-2

Newbilius 22 июл в 10:39

Ваши предложения?

iramovich 22 июл в 09:58

Спасибо за модельку

ArsenMuratovi4 22 июл в 09:58

круто, спасибо

RealLazyCat 22 июл в 11:43

модель t-lite (выше в комментариях)
ожидание ответа на вопрос из примера о пицце -0:04:45.099607
при этом жрет:
24 Гб RAM (all 64)
21 VRAM (4090)
18% CPU (r9 7950x)

модель beluga 7b
ожидание ответа на вопрос (на английском) - 0:00:06.533465
при этом жрет:
10 Гб RAM (all 64)
14 VRAM (4090)
8% CPU (r9 7950x)

модель beluga 13b
ожидание ответа на вопрос (на английском) - 0:02:18.005243
при этом жрет:
16 Гб RAM (all 64)
21 VRAM (4090)
25% CPU (r9 7950x)

модель "ruslan"
ожидание ответа на вопрос о пицце - 0:04:35.263743
при этом жрет:
24Гб RAM (all 64)
21 VRAM (4090)
18% CPU (r9 7950x)

к качеству ответа вопросов нет

Filipp42 22 июл в 14:40

T-Lite идёт БЕЗ квантизации.

Advisory 22 июл в 15:34

t-lite:
4 минуты 45.099607 секунд
beluga 7b:
0 минут 6.533465 секунд
beluga 13b:
2 минуты 18.005243 секунд
модель "ruslan":
4 минуты 35.263743 секунд

Почти по пять минут на ответ! Капец. Это какой же домашний ПК нужен, чтобы хотя бы до 2 секунд уменьшить?

beatleboy 22 июл в 16:25

У меня на 3090 TI t-lite в среднем отвечает за 5-6 сек

Advisory 22 июл в 19:37

@RealLazyCat пишет, что у него на 4090 модель t-lite «ожидание ответа на вопрос из примера о пицце -0:04:45.099607» — 4 минуты 45.1 секунды!

Advisory 22 июл в 15:35

[duplicate deleted]

Mavito 23 июл в 18:36

Есть ли причины, по которым выбор пал на Llama-3 и axolotl - не пробовали другие фреймворки(trl, ...)/модели (Mistral, Qwen, ...)? Можно ли было в качестве базовой модели для sft использовать Suzume? 2 карты A100 используются для ускорения обучения или на одну карту для тренировки базовая модель не влезала?

ruslandevlabs 30 июл в 12:34

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

Mavito 3 авг в 17:40

Тогда если имеется, то для Unsloth не прикрепите к статье notebook/colab? В статье указано, что 4 bit Unsloth сильно отстает, но, судя по упоминанию собственного фреймворка на его основе - он неплохой, а значит ли это, что по возможности просто не рекомендуется их 4 бит модели использовать или может быть еще какие то замечания к нему есть? Например, сильно ли будет код для Instruct модели от base отличаться, а то у них только для base модели пример есть и непонятно как его на рекомендуемую в статье instruct модель переписать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

Комментарии 18

Публикации

Истории