Подскажите, а есть какой-то leaderboard embedding моделей по их качеству работы с именно с русским языком? Пока знаю только MTEB leaderboard на huggingface, но там только English/Chinese/Polish.
не открывать доступ to everyone. Есть варианты: только для личного пользования, только для пользователей, у которых есть ссылка и everyone. + использовать API авторизацию (GPT умеет авторизовываться)
Александр, спасибо, очень интересная статья. А можете, пожалуйста, поделиться мыслями:
Почему вы за основу взяли именно Pythia-12B и какие еще были кандидаты?
Какой датасет вы использовали для дообучения? Или поделитесь хотя бы параметрами и принципами создания этого датасета - хочется понять, что нужно для дообучения модели, чтобы были похожие результаты.
Подскажите, а есть какой-то leaderboard embedding моделей по их качеству работы с именно с русским языком? Пока знаю только MTEB leaderboard на huggingface, но там только English/Chinese/Polish.
Нет, такого пока нет. Но, думаю, эта тема не останется без внимания со стороны платформы.
не открывать доступ to everyone. Есть варианты: только для личного пользования, только для пользователей, у которых есть ссылка и everyone. + использовать API авторизацию (GPT умеет авторизовываться)
Александр, спасибо, очень интересная статья. А можете, пожалуйста, поделиться мыслями:
Почему вы за основу взяли именно Pythia-12B и какие еще были кандидаты?
Какой датасет вы использовали для дообучения? Или поделитесь хотя бы параметрами и принципами создания этого датасета - хочется понять, что нужно для дообучения модели, чтобы были похожие результаты.