Pull to refresh

Comments 8

Руслан, а не пробовали дообучать после квантования в 1бит? Была как-то информация о подобном эксперименте и весьма положительно оценивали. При таком раскладе 405b модель вполне реально развернуть на доступных ресурсах.

даже дообучение модели квантованной в 4бита снижает её качество, причем снижает с приколом. то есть на первый взгляд кажется что дообучилась норм, пока в определенном единичном кейсе модель резко не начинает тупить.

А есть публикации результатов? Интересно копнуть эту тему глубже. Возможно просто при дообучении обновились не все веса и именно они ответственны за "глюки" модели. В идеале конечно после квантования переобучать на полном датасете, но задачка не для простых смертных.

К сожалению результаты не сохраняю, я ведь не компания. На выходных когда время есть занимаюсь ради интереса. Максимум на что мой комп способен - дообучение 72b не квантованных моделей.

Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать

Я думаю это был бы интересный эксперимент. Только обучающая выборка нужна большая, чтобы максимально охватить все параметры модели.

Ссылка на модель ведёт на датасет, в котором почему-то текст на китайском???

Хотел спросить: как по-вашему оптимальнее учить модель на отраслевых данных на русском?

Вариант А: взять предобученную на русском модель (например, вашу) и файнтюнить её на отраслевых данных на русском?

Вариант Б: взять модель, которую учили на разных языках, и файнтюнить на отраслевых данных на русском?

Также развилка: если часть данных на английском, лучше 1) переводить на русский или 2) файнтюнить на английском, а модель внутри разберёт? Есть на эту тему исследования?

Т.е. есть 4 варианта: А1, А2, В1, В2.

Я пока склоняюсь к В2, но, возможно, я не прав...

В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.

Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.

Sign up to leave a comment.

Articles