Pull to refresh
2
0
Dmitry Vaganov@VagDV

Руководитель Цифровой Траектории

Send message

При квантации Qwen 3-Embedding-4B (Q4_K_M или INT8) размер действительно падает, и такую версию уже можно было рассмотреть в сравнении. Но в нашем тесте все модели использовались в нативных весах (BF16/FP16) без квантизации, и без аппаратного ускорения (мы держались в рамках PyTorch + CPU (AVX2), без iGPU и CUDA).

Варианты с квантованными версиями и аппаратным ускорением как-нибудь вынесем в отдельные тесты.

Спасибо за комментарий! Да, Qwen 3-Embedding и Frida действительно в топах MTEB-лидербордов — согласен, их стоило рассмотреть.

Qwen 3-Embedding-4B мы не включали из-за её «тяжеловесности»: модель поддерживает до 2560-мерных эмбеддингов и содержит 4 млрд параметров. Для честного сравнения с «средними» энкодерами (384–1024 d, ≈3–4 GB) ей нужно отдельное окружение с GPU, иначе на CPU она бы сильно просела по временным метрикам.

Frida-2 как раз ближе по классу к нашему «лёгкому» набору моделей, но "руки не дошли".

Одна из задач теста — проверить, как в практических условиях справляются более компактные модели без заметной потери качества. Так как в RAG-архитектуре retrieval — только один из этапов многоступенчатого пайплайна, для нас было критично скорость генерации эмбеддингов и поиска.

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity

Specialization

Исполнительный директор, Бизнес-аналитик
Ведущий