mmMike6 ноя 2025 в 06:50

Домашняя векторная БД + RAG

Простой

7 мин

15K

DIY или Сделай самPython * Искусственный интеллект

+18

Комментарии 14

Alex-Freeman 6 ноя 2025 в 09:59

Первая ступень, аж жабры зачесались)

Mixael-L 6 ноя 2025 в 12:06

Текст надо вычитать, довольно много ошибок, причём типичных.

Sequd 6 ноя 2025 в 14:33

У меня были примерно такие же выводы после первых попыток с RAG на "домашних" документах (счета/личные/выписки). В какой то момент мне показалось проще прикрутить elasticsearch. Как решить эти проблемы и дать понимание контекста, я еще не придумал...

Ravius 6 ноя 2025 в 20:56

Да потому что каждый хочет написать статью и выложить. Раг раг раг раг... эта статья чем лучше "других"? Какую мысль она несёт? Не получилось?

Ответ супер прост: метрики, метрики и мметрики. Глупость какая эти метрики..циферки которые мешают (сарказм)

Далее, Смысл возвращаться чанк? Верните документ по чанку.

А делать раг на эмбедингах одних - это 2023 год, ну 2024.

Claude code и без рага найдет и ответит. Закинуть в гугл док свою библиотеку и спрашивать chatgpt.

А вообще начинать нужно с оценки LLM закинули документ и спросили вопрос. Или спросили вопрос которого нет в документе.

Ps там были какие-то метрики... но толку, как измерение "близости вопрос-ответ" вообще поможет? Есть классика: полнота возвращаемых документов, вернули 100% - значит дальше есть шанс получить правильный ответ. Вернули 10% - нет смысла дальше даже отвечать.

mmMike 7 ноя 2025 в 02:20

Я сделал для себя лично свою локальную поисковую систему для своих персональных целей.
По служебным документам, в частности, которые нельзя выкладывать в " Закинуть в гугл док"
Выложил готовый результат на github. Который можно просто запустить и пользоваться.
Поделился этим.

Далее, Смысл возвращаться чанк? Верните документ по чанку.

Вы вообще хотя бы на скриншот в заголовке статьи обратили внимания?
А обратили внимание, что я сказал, что RAG по результатам был "а просто прикручу попробовать" и вывод "что при таком подходе (просто по чанку) он не имеет смысла."

Мне кажется, все ваши замечания явно не в тему. Вы точно под этой статьей коммент писали?

Ps там были какие-то метрики...

Ну точно.. "я это не читал, но не согласен" :)

Ravius 7 ноя 2025 в 05:46

А вы статью как назвали?

Ну точно.. "я это не читал, но не согласен" :)

Я не согласен с метриками...они абсолютно бессмысленные...впрочем, это даже не метрики.

mmMike 7 ноя 2025 в 06:07

А вы статью как назвали?

Статью назвал, потому что прикрутил к векторному поиску еще и обработку результата для реальных документов. И оценил, что для 16Gb GPU и реальных документов это не имеет смысла. К слову, для реальной документации и запихивание всего документа в облачную LLM то же не имеет смысла. Ну по крайней мере для меня и тех документов и задач что мне нужны.

Считаете, что информация о том, что RAG на не больших чанках в локальных LLM не работает - это "очевидно для всех"?

А то, в интернете полно примеров, когда вылизанные данные подставляются LLM и получается красивый ответ (для примера, наверняка подобранный за несколько попыток).

Я не согласен с метриками...они абсолютно бессмысленные...впрочем, это даже не метрики.

А что конкретно в метриках тестов разных эмбеддинг моделей не устраивает?
Я столкнулся с тем, что модель (выбранная первая попавшаяся) выдала мне не релевантные ответы.

Сделал тесты НА ОДНИХ И ТЕХ ЖЕ данных (случайно сгненеренных LLM). Все пары вопрос + "правильный" ответ весьма далеки от друг друга по смыслу. И "правильная" модель для вопроса и ответа из этого набора должна генерить "близкие" вектора.

Весьма наглядно видно как на одних и тех же данных одна модель генерит эмбеддинг (вектор) вопроса близко к вектору правильного ответа. А другая нет.

Kwentin3 6 ноя 2025 в 21:19

Open notebook есть на гитхабе, гляньте.

mmMike 7 ноя 2025 в 02:36

Мне нужна была просто поисковая система по контексту. Ну и еще по явным подстрокам вчера прикрутил.
В первую очередь off-line (служебные документы).
Но даже если не были служебными, то загружать около 200-300 pdf (2Gb) в облако для поиска по документам.. Да нет таких халявных сервисов.

Я ее сделал для себя в виде готового персонального решения. Все.
И я уже трачу меньше времени на поиски нужно документа и страницы в нем.
Надо будет еще сделать выдергивание страниц из confluence (лично мне надо) и на этом лично моя задача будет закрыта.

А прикрутить к результатам поиска RAG. Да просто не сложно было и все. Но результат без облачного LLM весьма сомнительный.
Он сомнительный и с облачным LLM.
Я пробовал запихивать техническую документацию и получать ответы на вопросы по ней. Результаты меня не устроили. Для моих целей. Лучше самому прочитать документ, чем целиком полагаться на то что LLM "скажет".

Andreas_Fogel 7 ноя 2025 в 18:38

По опыту скажу, что дело не в раге а в самой информации, уберите из нее воду, уберите повторяющиеся ответы. Всегда нужен подготовленный датасет. Модель вообще без понятия что означают речевые обороты, он просто отсеит их как длинная фигня и вы получите минус рейтинг для темы.

mmMike 9 ноя 2025 в 04:28

дело не в раге а в самой информации, уберите из нее воду,

К сожалению, такой вариант эквивалентен совету из анекдота "мышки, станьте слонами"
Увы. Есть техническая готовая документация (как 100 пар томов "Война и Мир") и ее переписывание так что бы "было понятно LLM" это не реальная задача.

Все примеры в Интернете, почему то на "идеальных" текстах. Замечательно работает на коротких рассказах (особенно детских), разбитых на чанки. Mожете сами опробовать (я пробовал)

Взять, например сказку "маша и медведи"
разбить на чанки
найти чанк где упоминается кровать (идеально находит) по вопросу типа "а что делала маша с кроватью"
скормить LLM это чанк (а лучше весь рассказ + выделить конкретный чанк)
Получится идеальный ответ на этот вопрос от LLM :). Часто избыточно многословный, но получится.

А теперь возьмем да любую спецификацию, которой 100% не было в интернете и в наборе обучающих данных для любой LMM. Документацию предполагающую знание контекста (другие документы), не полный глоссарий, кучу таблиц, перекрестных ссылок (в том числе на другие документы) и пр.
И хорошо, что если есть ссылки на другие документы и глоссарий.. А не просто "ну это же и так было понятно" когда писали.

Вот хоть целиком, ее скармливай LLM, хоть найденный чанк +/-. Ответ будет со "случайной адекватностью" вопросу.
Я проверял. Да и кто мешает проверить любому скептику.

Мне нравятся статьи от продаванов AI агентов и RAG систем. Где они пишут "наивный RAG не позволяет, а вот у нас....". Но не приводят никаких описания КАК (что бы можно было хотя бы оценить сколько токенов/времени на ответ потратится). Типа купите - сами увидите. А все примеры на документации типа "маша и медведи"

dibu28 7 ноя 2025 в 18:45

А модель ColbertV2 не пробовали для эмбеддингов? Я получил для себя лучше результаты чем на обычных dense моделях. Её можно подключить через библиотеку fastembed.

mmMike 9 ноя 2025 в 04:07

Я боюсь, что у меня скоро провайдер разорвет договор. Модели все не мелкие..
Уже этими скачиваниями два диска по 1Tb забиты.
Моделей много. Все не перепробуешь.

Я наткнулся на qwen3-embedding и на ней эксперименты остановил.

dibu28 10 ноя 2025 в 10:52

ColbertV2 как раз не большого размера, но принцип работы у неё немного другой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий