Мы учили свой токенизатор. После этого доучивали квен с замороженными весами, кроме входных и выходных эмбеддингов, чтобы адаптировать модель к своему токенизатору.
Наши бенчмарки на русском, так как нам важно тестировать именно русский язык, а большинство публичных бенчмарков — на английском языке.
Кроме того, публичные бенчмарки часто могут быть подвержены перекосу в оценке, потому что в модели во время обучения могут случайно протекать датасеты из этих бенчмарков — нейросеть обучается хорошо отвечать на них. Мы контролируем, чтобы наша модель не страдала этим на всех замерах, а наши собственные бенчмарки закрыты даже от нас, поэтому их данные точно не попадут в модель, а значит им можно доверять.
Мы учили свой токенизатор. После этого доучивали квен с замороженными весами, кроме входных и выходных эмбеддингов, чтобы адаптировать модель к своему токенизатору.
Это претрейн модель. Ее можно заалайнить и тогда использовать для fc.
Pro-версия модели в Облаке поддерживает fc - по инструкции
Наши бенчмарки на русском, так как нам важно тестировать именно русский язык, а большинство публичных бенчмарков — на английском языке.
Кроме того, публичные бенчмарки часто могут быть подвержены перекосу в оценке, потому что в модели во время обучения могут случайно протекать датасеты из этих бенчмарков — нейросеть обучается хорошо отвечать на них. Мы контролируем, чтобы наша модель не страдала этим на всех замерах, а наши собственные бенчмарки закрыты даже от нас, поэтому их данные точно не попадут в модель, а значит им можно доверять.