Comments / Profile of VagDV / Habr

Dmitry Vaganov@VagDV

Руководитель Цифровой Траектории

Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

VagDV Nov 1 2025 at 08:15

При квантации Qwen 3-Embedding-4B (Q4_K_M или INT8) размер действительно падает, и такую версию уже можно было рассмотреть в сравнении. Но в нашем тесте все модели использовались в нативных весах (BF16/FP16) без квантизации, и без аппаратного ускорения (мы держались в рамках PyTorch + CPU (AVX2), без iGPU и CUDA).

Варианты с квантованными версиями и аппаратным ускорением как-нибудь вынесем в отдельные тесты.

Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

VagDV Oct 31 2025 at 12:38

Спасибо за комментарий! Да, Qwen 3-Embedding и Frida действительно в топах MTEB-лидербордов — согласен, их стоило рассмотреть.

Qwen 3-Embedding-4B мы не включали из-за её «тяжеловесности»: модель поддерживает до 2560-мерных эмбеддингов и содержит 4 млрд параметров. Для честного сравнения с «средними» энкодерами (384–1024 d, ≈3–4 GB) ей нужно отдельное окружение с GPU, иначе на CPU она бы сильно просела по временным метрикам.

Frida-2 как раз ближе по классу к нашему «лёгкому» набору моделей, но "руки не дошли".

Одна из задач теста — проверить, как в практических условиях справляются более компактные модели без заметной потери качества. Так как в RAG-архитектуре retrieval — только один из этапов многоступенчатого пайплайна, для нас было критично скорость генерации эмбеддингов и поиска.

Information

Specialization