Комментарии 18
Просто интересно, сколько обошлась работа с Н100?
А обучалася ли вообще gpt-3.5 на русскоязычных данных?
Автору спасибо. Хорошая моделька получилась. Я сконвертил ее для Ollama. И как мне кажется эта модель поинтересней чем выпущенная вчера T-lite, работает шустрей, не душнит как T-lite.
Может кому-то тоже будет интересно сравнить на Ollama модель T-lite:instruct 8b от Т-банка с моделью llama-3-8b-gpt-4o-ru1.0 от @abstract_chaos
Заголовок полный кликбейт:
Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo
И первая же фраза опровергает обещанное в заголовке:
я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench
Оказывается, на деле речь лишь об одном бенчмарке идет.
Спасибо за модельку
круто, спасибо
модель t-lite (выше в комментариях)
ожидание ответа на вопрос из примера о пицце -0:04:45.099607
при этом жрет:
24 Гб RAM (all 64)
21 VRAM (4090)
18% CPU (r9 7950x)
модель beluga 7b
ожидание ответа на вопрос (на английском) - 0:00:06.533465
при этом жрет:
10 Гб RAM (all 64)
14 VRAM (4090)
8% CPU (r9 7950x)
модель beluga 13b
ожидание ответа на вопрос (на английском) - 0:02:18.005243
при этом жрет:
16 Гб RAM (all 64)
21 VRAM (4090)
25% CPU (r9 7950x)
модель "ruslan"
ожидание ответа на вопрос о пицце - 0:04:35.263743
при этом жрет:
24Гб RAM (all 64)
21 VRAM (4090)
18% CPU (r9 7950x)
к качеству ответа вопросов нет
T-Lite идёт БЕЗ квантизации.
t-lite:
4 минуты 45.099607 секундbeluga 7b:
0 минут 6.533465 секундbeluga 13b:
2 минуты 18.005243 секундмодель "ruslan":
4 минуты 35.263743 секунд
Почти по пять минут на ответ! Капец. Это какой же домашний ПК нужен, чтобы хотя бы до 2 секунд уменьшить?
У меня на 3090 TI t-lite в среднем отвечает за 5-6 сек
@RealLazyCat пишет, что у него на 4090 модель t-lite «ожидание ответа на вопрос из примера о пицце -0:04:45.099607» — 4 минуты 45.1 секунды!
[duplicate deleted]
Есть ли причины, по которым выбор пал на Llama-3 и axolotl - не пробовали другие фреймворки(trl, ...)/модели (Mistral, Qwen, ...)? Можно ли было в качестве базовой модели для sft использовать Suzume? 2 карты A100 используются для ускорения обучения или на одну карту для тренировки базовая модель не влезала?
llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения
Тогда если имеется, то для Unsloth не прикрепите к статье notebook/colab? В статье указано, что 4 bit Unsloth сильно отстает, но, судя по упоминанию собственного фреймворка на его основе - он неплохой, а значит ли это, что по возможности просто не рекомендуется их 4 бит модели использовать или может быть еще какие то замечания к нему есть? Например, сильно ли будет код для Instruct модели от base отличаться, а то у них только для base модели пример есть и непонятно как его на рекомендуемую в статье instruct модель переписать.
Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo