VagDV31 окт 2025 в 08:12

Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

Средний

11 мин

11K

Искусственный интеллектПоисковые технологии * Big Data * Data Engineering * Natural Language Processing *

Из песочницы

+19

Комментарии 10

DataDiver 31 окт 2025 в 10:10

спасибо за проделанную работу, и что поделились результатом!

Marwin 31 окт 2025 в 10:50

Почему не пробовали фриду и Qwen3-Embedding? Просто руки не дошли или чем-то не нравятся? фрида для русского прям неплоха. Qwen3 вообще очень сильный эмбеддер, по крайней мере 4b. Я попробовал на нём посчитать близость для вопросов про лук и команды - на всё ответил правильно. Ну и они в принципе в топе лидербордов mteb

VagDV 31 окт 2025 в 12:38

Спасибо за комментарий! Да, Qwen 3-Embedding и Frida действительно в топах MTEB-лидербордов — согласен, их стоило рассмотреть.

Qwen 3-Embedding-4B мы не включали из-за её «тяжеловесности»: модель поддерживает до 2560-мерных эмбеддингов и содержит 4 млрд параметров. Для честного сравнения с «средними» энкодерами (384–1024 d, ≈3–4 GB) ей нужно отдельное окружение с GPU, иначе на CPU она бы сильно просела по временным метрикам.

Frida-2 как раз ближе по классу к нашему «лёгкому» набору моделей, но "руки не дошли".

Одна из задач теста — проверить, как в практических условиях справляются более компактные модели без заметной потери качества. Так как в RAG-архитектуре retrieval — только один из этапов многоступенчатого пайплайна, для нас было критично скорость генерации эмбеддингов и поиска.

Shado_vi 31 окт 2025 в 18:42

Qwen 3-Embedding 0.6b?

есть квантованный версии.
например список моделей из статьи в Q4_K_M в среднем весят в районе 500 мб.
Qwen 3-Embedding 4b в Q4_K_M где то 2.5 гб.

CPU или iGPU?
в случаях CPU вроде так же разными способами можно ускорить работу, преобразовав модель.

VagDV 1 ноя 2025 в 08:15

При квантации Qwen 3-Embedding-4B (Q4_K_M или INT8) размер действительно падает, и такую версию уже можно было рассмотреть в сравнении. Но в нашем тесте все модели использовались в нативных весах (BF16/FP16) без квантизации, и без аппаратного ускорения (мы держались в рамках PyTorch + CPU (AVX2), без iGPU и CUDA).

Варианты с квантованными версиями и аппаратным ускорением как-нибудь вынесем в отдельные тесты.

TheEllar 5 ноя 2025 в 11:04

Добрый день. Я бы порекомендовал ещё протестировать Giga-Embeddings-instruct он превзошёл в тестах Qwen 3-Embedding 4b на 30% - мы тестировали на нормативной документации из консультанта. Так же интересно какой реранкер вы использовали и почему именно его (у нас реранкер bge m3 только портит результат) ? И с чем связан выбор векторной базы данных, было бы так же интересно увидеть сравнение с тем же OpenSearch, pgvector. За исследование вам большое спасибо, было интересно почитать.

piroman74 3 ноя 2025 в 08:25

Спасибо за статью! В закладки

Displacer 3 ноя 2025 в 12:44

А nomic-embed-text не рассматривали?

achmed 4 ноя 2025 в 10:04

Странно видеть в списке кандидатов только модели с малыми размерностями векторов и модели способные работать на CPU. Ведь по словам автора retrieve это ключевой элемент RAG, от которого зависит эффекттвность пайплацна. По моему мнению для эффективного rag нужно брать топовые модели из mteb и запускать их на GPU.

Roma97 7 ноя 2025 в 03:04

Если я возьму наихудшую из представленных моделей и дообучу его на небольшом сгенерированном датасете, не будет ли он превосходить все модели конкретно для моего случая?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий