Search
Write a publication
Pull to refresh
20
0
Ruslan Dev @ruslandevlabs

User

Send message

Да, вот была статья https://habr.com/ru/articles/830332/ там ссылки на веса и датасет

бенчмарки показывают обратное)

Не пробовал, знаю что у 2B хорошие результаты по бенчмаркам среди малых LLM. Но теперь есть Llama 3.2 3B

lightblue/suzume-llama-3-8B-multilingual и моя ruslandev/llama-3-8b-gpt-4o-ru1.0

В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.

Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.

Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

Information

Rating
1,492-nd
Registered
Activity

Specialization

ML Engineer