photonchikk Jun 20 at 09:27

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Medium

8 min

14K

Natural Language Processing * Open source * Artificial IntelligenceMachine learning * Search engines *

Review

From sandbox

+16

Comments 4

Ogy4ig Jun 20 at 19:03

Тестировал qwen3 0.6b против bge-m3. Особого прироста качества не заметил, кроме большого контекста. MRR даже пониже стал, но я не файнтьюнил под домен. Зато значительно медленнее и жрет больше памяти. 32к длины контекста обычно все равно не используется в моих данных, т.к. такой объем текста можно поделить на меньшие куски без особой потери смысла.

photonchikk Jun 25 at 06:47

На мой взгляд, результат вполне ожидаемый. Qwen3-Embedding-0.6B - младшая модель линейки, а BGE-M3 остается сильным универсальным эмбеддером своего класса. Поэтому на обычном retrieval-сценарии без дополнительной адаптации большого выигрыша от перехода на Qwen ждать не стоит

Из практики внедрения RAG-систем я бы ещё отметила, что сильная сторона decoder-based эмбеддеров часто не столько в качестве retrieval из коробки, сколько в гибкости. они хорошо работают в сценариях, где используются инструкции для разных задач или планируется доменная адаптация через LoRA/файнтюн

Если же задача сводится к классическому retrieval без инструкций и без дополнительного обучения, то зрелые encoder-based модели вроде BGE-M3 нередко остаются очень конкурентными как по качеству, так и по требованиям к ресурсам

По производительности наблюдение тоже совпадает с моим опытом: decoder-based модели обычно тяжелее в инференсе. Если длинный контекст и дополнительные возможности модели не используются, то практический выигрыш от перехода может оказаться минимальным

YuriAbele Jun 22 at 08:14

У нас документы на немецком.
Пробовали разные мадели для эмбединга (локально подгруженные через HF) - лучший результат у "jina-embeddings-v2-base-de".

photonchikk Jun 25 at 06:36

Спасибо, что поделились опытом!

jina-embeddings-v2-base-de действительно остается сильным вариантом для немецкого корпуса

Если в будущем появятся английские или другие языки, можно посмотреть в сторону jina-embeddings-v3. Она изначально мультиязычная и обычно дает больше гибкости для кросс-язычного поиска и смешанных корпусов

Как и всегда с эмбеддингами, финальное решение лучше принимать после сравнения на своем датасете - разница между моделями сильно зависит от конкретной задачи