Обновить

Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели9.3K
Всего голосов 17: ↑17 и ↓0+19
Комментарии10

Комментарии 10

спасибо за проделанную работу, и что поделились результатом!

Почему не пробовали фриду и Qwen3-Embedding? Просто руки не дошли или чем-то не нравятся? фрида для русского прям неплоха. Qwen3 вообще очень сильный эмбеддер, по крайней мере 4b. Я попробовал на нём посчитать близость для вопросов про лук и команды - на всё ответил правильно. Ну и они в принципе в топе лидербордов mteb

Спасибо за комментарий! Да, Qwen 3-Embedding и Frida действительно в топах MTEB-лидербордов — согласен, их стоило рассмотреть.

Qwen 3-Embedding-4B мы не включали из-за её «тяжеловесности»: модель поддерживает до 2560-мерных эмбеддингов и содержит 4 млрд параметров. Для честного сравнения с «средними» энкодерами (384–1024 d, ≈3–4 GB) ей нужно отдельное окружение с GPU, иначе на CPU она бы сильно просела по временным метрикам.

Frida-2 как раз ближе по классу к нашему «лёгкому» набору моделей, но "руки не дошли".

Одна из задач теста — проверить, как в практических условиях справляются более компактные модели без заметной потери качества. Так как в RAG-архитектуре retrieval — только один из этапов многоступенчатого пайплайна, для нас было критично скорость генерации эмбеддингов и поиска.

Qwen 3-Embedding 0.6b?

есть квантованный версии.
например список моделей из статьи в Q4_K_M в среднем весят в районе 500 мб.
Qwen 3-Embedding 4b в Q4_K_M где то 2.5 гб.

CPU или iGPU?
в случаях CPU вроде так же разными способами можно ускорить работу, преобразовав модель.

При квантации Qwen 3-Embedding-4B (Q4_K_M или INT8) размер действительно падает, и такую версию уже можно было рассмотреть в сравнении. Но в нашем тесте все модели использовались в нативных весах (BF16/FP16) без квантизации, и без аппаратного ускорения (мы держались в рамках PyTorch + CPU (AVX2), без iGPU и CUDA).

Варианты с квантованными версиями и аппаратным ускорением как-нибудь вынесем в отдельные тесты.

Добрый день. Я бы порекомендовал ещё протестировать Giga-Embeddings-instruct  он превзошёл в тестах Qwen 3-Embedding 4b на 30% - мы тестировали на нормативной документации из консультанта. Так же интересно какой реранкер вы использовали и почему именно его (у нас реранкер bge m3 только портит результат) ? И с чем связан выбор векторной базы данных, было бы так же интересно увидеть сравнение с тем же OpenSearch, pgvector. За исследование вам большое спасибо, было интересно почитать.

Спасибо за статью! В закладки

А nomic-embed-text не рассматривали?

Странно видеть в списке кандидатов только модели с малыми размерностями векторов и модели способные работать на CPU. Ведь по словам автора retrieve это ключевой элемент RAG, от которого зависит эффекттвность пайплацна. По моему мнению для эффективного rag нужно брать топовые модели из mteb и запускать их на GPU.

Если я возьму наихудшую из представленных моделей и дообучу его на небольшом сгенерированном датасете, не будет ли он превосходить все модели конкретно для моего случая?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации