photonchikk20 июн в 09:27

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Средний

8 мин

14K

Natural Language Processing * Open source * Искусственный интеллектМашинное обучение * Поисковые технологии *

Обзор

Из песочницы

+14

Комментарии 4

Ogy4ig 20 июн в 19:03

Тестировал qwen3 0.6b против bge-m3. Особого прироста качества не заметил, кроме большого контекста. MRR даже пониже стал, но я не файнтьюнил под домен. Зато значительно медленнее и жрет больше памяти. 32к длины контекста обычно все равно не используется в моих данных, т.к. такой объем текста можно поделить на меньшие куски без особой потери смысла.

photonchikk 25 июн в 06:47

На мой взгляд, результат вполне ожидаемый. Qwen3-Embedding-0.6B - младшая модель линейки, а BGE-M3 остается сильным универсальным эмбеддером своего класса. Поэтому на обычном retrieval-сценарии без дополнительной адаптации большого выигрыша от перехода на Qwen ждать не стоит

Из практики внедрения RAG-систем я бы ещё отметила, что сильная сторона decoder-based эмбеддеров часто не столько в качестве retrieval из коробки, сколько в гибкости. они хорошо работают в сценариях, где используются инструкции для разных задач или планируется доменная адаптация через LoRA/файнтюн

Если же задача сводится к классическому retrieval без инструкций и без дополнительного обучения, то зрелые encoder-based модели вроде BGE-M3 нередко остаются очень конкурентными как по качеству, так и по требованиям к ресурсам

По производительности наблюдение тоже совпадает с моим опытом: decoder-based модели обычно тяжелее в инференсе. Если длинный контекст и дополнительные возможности модели не используются, то практический выигрыш от перехода может оказаться минимальным

YuriAbele 22 июн в 08:14

У нас документы на немецком.
Пробовали разные мадели для эмбединга (локально подгруженные через HF) - лучший результат у "jina-embeddings-v2-base-de".

photonchikk 25 июн в 06:36

Спасибо, что поделились опытом!

jina-embeddings-v2-base-de действительно остается сильным вариантом для немецкого корпуса

Если в будущем появятся английские или другие языки, можно посмотреть в сторону jina-embeddings-v3. Она изначально мультиязычная и обычно дает больше гибкости для кросс-язычного поиска и смешанных корпусов

Как и всегда с эмбеддингами, финальное решение лучше принимать после сравнения на своем датасете - разница между моделями сильно зависит от конкретной задачи

Зарегистрируйтесь на Хабре, чтобы оставить комментарий