Comments 11
На самом деле в таких статьях часто можно найти действительно полезный опыт. Не все умеют вручную писать RAG пайплайны и часто это делается полностью вайбкодингом через крупные модели, которые на вопрос "какой эмбеддер посоветуешь для русского языка, из самых крупных и продвинутых", советует bge-m3 или multilingual-v... и ты с чистой душой его вставляешь в RAG. Потом удивляешь плохим результатам и пытаешься понять в чем проблема. На своем опыте убедился что бенчмарки и тем-более советы ИИ совсем не последняя инстанция. Спасибо, Дмитрий! Я вот тоже уже не первый месяц прохожу этот путь и пытаюсь настроить пайплайн для техпода, не имея опыта в этом 😁 начиналось с простого, - запихнуть все в контекстное окно и ждать ответа, потом уровень выше - встроенные RAG инструменты в UI обёртки для LLM, потом следующий уровень, - собрать все документы разных форматов в одну кучу, начанковать 1000/200 и по лексике топ=10 пихать в ИИ. Получилось прям ужасно... Месяцы этого занятия, чтения хабра и таких статей и уже docking+чанкование через ИИ+гибридный поиск с метаданными и уже приносит пользу. Так что пишите, это важно, для новеньких и особенно для не профильных ИИ-шников.
"Модели серии Qwen3-Embedding показали на удивление мало различия между собой".
Может тесты уточнить? "Qwen3 Embedding 8B занимает первое место в многоязычной таблице MTEB (по состоянию на 5 июня 2025 года, балл 70,58)". """Qwen3 Embedding""", GitHub - QwenLM/Qwen3-Embedding или """Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models""". https://qwenlm.github.io/blog/qwen3-embedding/. Высокие отзывы о серии Qwen3 Embedding: https://huggingface.co/datasets/John6666/forum3/blob/main/embedding_ec_search_1.md
Тестировались три модели серии Qwen3-Embedding: 8B, 4B и 0.6B. По идее, чем меньше параметров, тем менее точным должен быть поиск. Но технически выгодее брать более слабую модель, потому что гораздо быстрее работает.
И вот на том тестсете, что я гонял, разницы, можно сказать, что нет.
По метрике Score для Qwen3-Embedding всё пределах погрешности (первый знак после десятичной точки). Это очень хорошо, что для Ваших данных нет большого семантического разброса и нормально срабатываем модель 0.6В. Для реализации академического интереса было бы любопытно расширить семантику и посмотреть, когда проявит себя модель 8В. Интересно, по времени большая разница для моделей 0.6В и 7В? На моих задачах не более пары секунд
"""text-embedding-3-large: 1 провальных вопросов Qwen3-Embedding-8B-Q4_K_M: 2 провальных вопросов Qwen3-Embedding-4B-Q4_K_M: 1 провальных вопросов.""" Очень интересно, это были разные вопросы?
У квенов - один общий. Не такой, как у других
Это хорошо. Значит надо ансамбль "городить"
Перед этим стоит попробовать просто увеличить число чанков в выдаче для прода. Этот тест проводился на 5 чанков выдачи. Хороший объём для теста. Если сделать 10-25, то охват будет больше. Но и мусора больше, и токенов тоже и там уже реранкинг в помощь.
А ансамблить есть смысл с bm25. Он сам по себе, тупее, но быстрый и "альтернативно мыслящий" и вот он даст несколько процентиков к охвату.
Интересно, за что Автору карму заминусили? Это одна из немногих работ, где представлены вполне корректные результаты численного эксперимента, интересные и полезные для практики.
Embedder для ИТ-крестьянина