Комментарии / Профиль ruslandevlabs / Хабр

Пользователь

Профиль Публикации 3Комментарии 4Закладки

В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.

Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.

Посмотреть

Llama 3.1 и Mistral Large 2

ruslandevlabs 14 авг в 12:40

Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать

Посмотреть

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

ruslandevlabs 30 июл в 12:34

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

Посмотреть

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

ruslandevlabs 22 июл в 13:27

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

Посмотреть

Информация

Специализация