valentina-p 20 мая в 07:37

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Средний

8 мин

14K

Блог компании SberDevicesИскусственный интеллектМашинное обучение*

+55

Комментарии 27

nobilix 20 мая в 07:52

Отличная работа, спасибо! Очень круто было бы еще получить gguf и ONNX версии!

Andriljo 20 мая в 08:35

Приветствую, отличная идея. Среди комьюнити уже есть onnx версия, мы также приглашаем энтузиастов к созданию gguf.

Elaugaste 20 мая в 09:27

Крайне хотелось бы, чтобы gguf выпускался сразу, а не "если найдутся энтузиасты". Поскольку без оного, затруднительно использовать как ваше творение так и поделия deepvk. Приходится использовать bge-m3, который единственный из поддерживаемых ollama может в великий и могучий.

Подозреваю что gguf не делаются из за несовместимых архитектур.

Andriljo 20 мая в 10:02

Если есть примеры gguf t5 то совместимо, сейчас глянем.

Andriljo 20 мая в 11:17

Vllm не поддерживает т5, но поддерживает энкодеры, т5 энкодер это классик энкодер, видимо с некоторыми приседаниями должен залететь.

2025г кому нужны ваши т5 энкодеры, но зато bart конечно нужен.

T5 encoder существует в гуфе, значит сделать реально,но пример через llama embs lib

Andriljo 22 мая в 06:53

Наш товарищ из opensource Павел, сделал ггуф https://huggingface.co/evilfreelancer/FRIDA-GGUF.

Ollama https://ollama.com/evilfreelancer/FRIDA

Elaugaste 22 мая в 08:58

Спасибо, попробуем

yailya 20 мая в 09:05

скажите, а есть ли сравнение качества с закрытыми моделями от OpenAI, Anthropic, Yandex?

Andriljo 20 мая в 10:05

Мы смотрим на модели по ruMTEB. Там в основном оунеры замеряют качество, в тч по моделям с апи. Для длинных текстов, думаю лучше будет oai, но еще верю в наши gigaembs.

yailya 20 мая в 10:48

ясно. спасибо.
а для коротких, например, названий, наименований?

Andriljo 20 мая в 10:58

До 512 токенов - Фрида лучшая имо.

n0isy 21 мая в 02:58

Скажите. Как правильно оценить деградацию качества модели (эмбед или ллм) по отношению к английскому. К примеру llama официально может 8 языков. Но там нет русского. Как оценить качество понимания и написания ей русского, относительно английского? На сколько та или иная модель вообще способна в языки.

Andriljo 21 мая в 14:15

Вопрос хороший, можно использовать разные подходы для оценки языка от RuSuperGlue до RuMMLU и MERA. Специальные бенчи мне попадались на глаза, возьму паузу и поищу. Докину вторым комментарием.

achekalin 21 мая в 05:31

А если модели т-банка сравнить? Lite там прямо не всегда как надо пашет на внятных текстах, а вот полная...

Andriljo 21 мая в 14:14

Приветствую, а киньте ссылки на их эмбеддеры. Тут все же не LLM, а эмбеддер для RAG.

mrcoolinhabr 21 мая в 18:24

Моделька топ, очень хороша в поиске. Ставлю лайк 👍🏻

Ufo28 22 мая в 11:02

Столько странных слов, что не удаётся понять, для чего это всё.
Было бы хорошо, если бы в начале статьи писали для не специалистов, для чего эта модель может использоваться, а потом уже технические подробности.

Andriljo 22 мая в 19:58

Модель полезна для задач матчинга, поиска, поверх нее можно делать классификацию и кластеризацию. Хороший эмбеддер для RAG.

buldo 23 мая в 11:08

Мне кажется, что стоит сильнее упростить ответ, а то количество странных слов осталось прежним...

Andriljo 23 мая в 11:23

Модель превращает ваш текст в чиселки - вектор, как в 9ом классе на алгебре или геометрии. Далее этот вектор используется для того, чтобы искать другие вектора, привязанные к др фразам. Так происходит поиск, а также если это фразы команд в вашей базе команд, то и поиск команд. А еще поверх чиселок можно группироват-кластеризовать тексты и искать закономерности. Это не LLM которая работает как текст на вход и текст на выход.

buldo 23 мая в 11:11

Может кто подскажет статью для нубов, как такие модели использовать на практике? Например, это же можно использовать для того, чтобы преобразовать фразу на естественном языке "сделай свет поярче" в понятную "цифровую" команду для умного дома?

artemsnegirev 27 мая в 18:18

Да, эта задача называется классификация интентов. FRIDA была обучена в том числе для этого. Для этого нужно обучить kNN поверх эмбеддингов, смотрите эту статью для понимания о чем речь. Потребуется датасет вида "команда на естественном языке" - "цифровая команда". Смотрите в карточке модели как получать эмбеддинги и посмотрите туториал как обучать kNN.

ALock 2 июн в 11:42

Отличная работа! Хотел бы сделать на ней небольшой pet-проект, только не могу найти доков для файнтюна. Подскажите, пожалуйста, они вообще существуют?))

artemsnegirev 3 июн в 17:31

Можно использовать библиотеку sentence-transformers, в документации есть инструкция по файнтюну и много примеров.

alekseyefremov 13 июн в 11:34

Приятный релиз, спасибо!

Тестировал недавно множество embedding-моделей на задачах кластеризации семантики поисковых запросов и обнаружил, что все модели в этом, мягко говоря, не очень.

Причина в ограниченности словаря и емкости знаний о мире в подобных моделях, как мне кажется.

Опишу пару примеров.

Есть ситуации, когда опечатка в одном или паре символов не меняет смысл фразы и модели справляются хорошо с построением embedding'ов для таких фраз / строк. Они остаются близки в метриках, что является ожидаемым и правильным поведением.

А есть такие строки, например, обозначающие какую-то продукцию определенного производителя, когда замена одного символа означает совершенно другой класс товара как минимум. Но модели продолжают видеть подобные строки как близкие.

Есть ли в планах расширить датасет подобными примерами, дополнительно тюнить модели под подобные задачи?

artemsnegirev 17 июн в 12:08

Привет! Спасибо, ценные наблюдения. Да, хороший кейс, можешь написать мне в тг, обсудим.

Fleokan 15 июл в 16:58

Подскажите, на вас сколько завялений в день катают и почему без толку?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий