Как стать автором
Обновить
11
29
Ruslan Dev @ruslandevlabs

Пользователь

Отправить сообщение

В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.

Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.

Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

Информация

В рейтинге
220-й
Зарегистрирован
Активность

Специализация

ML Engineer