Comments 8
Руслан, а не пробовали дообучать после квантования в 1бит? Была как-то информация о подобном эксперименте и весьма положительно оценивали. При таком раскладе 405b модель вполне реально развернуть на доступных ресурсах.
даже дообучение модели квантованной в 4бита снижает её качество, причем снижает с приколом. то есть на первый взгляд кажется что дообучилась норм, пока в определенном единичном кейсе модель резко не начинает тупить.
А есть публикации результатов? Интересно копнуть эту тему глубже. Возможно просто при дообучении обновились не все веса и именно они ответственны за "глюки" модели. В идеале конечно после квантования переобучать на полном датасете, но задачка не для простых смертных.
Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать
Ссылка на модель ведёт на датасет, в котором почему-то текст на китайском???
Хотел спросить: как по-вашему оптимальнее учить модель на отраслевых данных на русском?
Вариант А: взять предобученную на русском модель (например, вашу) и файнтюнить её на отраслевых данных на русском?
Вариант Б: взять модель, которую учили на разных языках, и файнтюнить на отраслевых данных на русском?
Также развилка: если часть данных на английском, лучше 1) переводить на русский или 2) файнтюнить на английском, а модель внутри разберёт? Есть на эту тему исследования?
Т.е. есть 4 варианта: А1, А2, В1, В2.
Я пока склоняюсь к В2, но, возможно, я не прав...
В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.
Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.
Llama 3.1 и Mistral Large 2