Как стать автором
Обновить

Комментарии 18

Просто интересно, сколько обошлась работа с Н100?

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

А обучалася ли вообще gpt-3.5 на русскоязычных данных?

Конечно обучался, изначально там много языков.

Автору спасибо. Хорошая моделька получилась. Я сконвертил ее для Ollama. И как мне кажется эта модель поинтересней чем выпущенная вчера T-lite, работает шустрей, не душнит как T-lite.

Может кому-то тоже будет интересно сравнить на Ollama модель T-lite:instruct 8b от Т-банка с моделью llama-3-8b-gpt-4o-ru1.0 от @abstract_chaos

Заголовок полный кликбейт:

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

И первая же фраза опровергает обещанное в заголовке:

я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench

Оказывается, на деле речь лишь об одном бенчмарке идет.

Ваши предложения?

Спасибо за модельку

модель t-lite (выше в комментариях)
ожидание ответа на вопрос из примера о пицце -0:04:45.099607
при этом жрет:
24 Гб RAM (all 64)
21 VRAM (4090)
18% CPU (r9 7950x)

модель beluga 7b
ожидание ответа на вопрос (на английском) - 0:00:06.533465
при этом жрет:
10 Гб RAM (all 64)
14 VRAM (4090)
8% CPU (r9 7950x)

модель beluga 13b
ожидание ответа на вопрос (на английском) - 0:02:18.005243
при этом жрет:
16 Гб RAM (all 64)
21 VRAM (4090)
25% CPU (r9 7950x)

модель "ruslan"
ожидание ответа на вопрос о пицце - 0:04:35.263743
при этом жрет:
24Гб RAM (all 64)
21 VRAM (4090)
18% CPU (r9 7950x)

к качеству ответа вопросов нет

T-Lite идёт БЕЗ квантизации.

  1. t-lite:
    4 минуты 45.099607 секунд

  2. beluga 7b:
    0 минут 6.533465 секунд

  3. beluga 13b:
    2 минуты 18.005243 секунд

  4. модель "ruslan":
    4 минуты 35.263743 секунд

Почти по пять минут на ответ! Капец. Это какой же домашний ПК нужен, чтобы хотя бы до 2 секунд уменьшить?

У меня на 3090 TI t-lite в среднем отвечает за 5-6 сек

@RealLazyCat пишет, что у него на 4090 модель t-lite «ожидание ответа на вопрос из примера о пицце -0:04:45.099607» — 4 минуты 45.1 секунды!

Есть ли причины, по которым выбор пал на Llama-3 и axolotl - не пробовали другие фреймворки(trl, ...)/модели (Mistral, Qwen, ...)? Можно ли было в качестве базовой модели для sft использовать Suzume? 2 карты A100 используются для ускорения обучения или на одну карту для тренировки базовая модель не влезала?

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

Тогда если имеется, то для Unsloth не прикрепите к статье notebook/colab? В статье указано, что 4 bit Unsloth сильно отстает, но, судя по упоминанию собственного фреймворка на его основе - он неплохой, а значит ли это, что по возможности просто не рекомендуется их 4 бит модели использовать или может быть еще какие то замечания к нему есть? Например, сильно ли будет код для Instruct модели от base отличаться, а то у них только для base модели пример есть и непонятно как его на рекомендуемую в статье instruct модель переписать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории