Как стать автором
Обновить

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.1K
Всего голосов 40: ↑39 и ↓1+39
Комментарии15

Комментарии 15

Отличная работа, спасибо! Очень круто было бы еще получить gguf и ONNX версии!

Приветствую, отличная идея. Среди комьюнити уже есть onnx версия, мы также приглашаем энтузиастов к созданию gguf.

Крайне хотелось бы, чтобы gguf выпускался сразу, а не "если найдутся энтузиасты". Поскольку без оного, затруднительно использовать как ваше творение так и поделия deepvk. Приходится использовать bge-m3, который единственный из поддерживаемых ollama может в великий и могучий.

Подозреваю что gguf не делаются из за несовместимых архитектур.

Если есть примеры gguf t5 то совместимо, сейчас глянем.

Vllm не поддерживает т5, но поддерживает энкодеры, т5 энкодер это классик энкодер, видимо с некоторыми приседаниями должен залететь.
Vllm не поддерживает т5, но поддерживает энкодеры, т5 энкодер это классик энкодер, видимо с некоторыми приседаниями должен залететь.
2025г кому нужны ваши т5 энкодеры, но зато bart конечно нужен.
2025г кому нужны ваши т5 энкодеры, но зато bart конечно нужен.
 T5 encoder существует в гуфе, значит сделать реально,но пример через llama embs lib
T5 encoder существует в гуфе, значит сделать реально,но пример через llama embs lib

скажите, а есть ли сравнение качества с закрытыми моделями от OpenAI, Anthropic, Yandex?

Мы смотрим на модели по ruMTEB. Там в основном оунеры замеряют качество, в тч по моделям с апи. Для длинных текстов, думаю лучше будет oai, но еще верю в наши gigaembs.

ясно. спасибо.
а для коротких, например, названий, наименований?

Скажите. Как правильно оценить деградацию качества модели (эмбед или ллм) по отношению к английскому. К примеру llama официально может 8 языков. Но там нет русского. Как оценить качество понимания и написания ей русского, относительно английского? На сколько та или иная модель вообще способна в языки.

Вопрос хороший, можно использовать разные подходы для оценки языка от RuSuperGlue до RuMMLU и MERA. Специальные бенчи мне попадались на глаза, возьму паузу и поищу. Докину вторым комментарием.

Приветствую, а киньте ссылки на их эмбеддеры. Тут все же не LLM, а эмбеддер для RAG.

Моделька топ, очень хороша в поиске. Ставлю лайк 👍🏻

Зарегистрируйтесь на Хабре, чтобы оставить комментарий