Комментарии 14
Первая ступень, аж жабры зачесались)
Текст надо вычитать, довольно много ошибок, причём типичных.
У меня были примерно такие же выводы после первых попыток с RAG на "домашних" документах (счета/личные/выписки). В какой то момент мне показалось проще прикрутить elasticsearch. Как решить эти проблемы и дать понимание контекста, я еще не придумал...
Да потому что каждый хочет написать статью и выложить. Раг раг раг раг... эта статья чем лучше "других"? Какую мысль она несёт? Не получилось?
Ответ супер прост: метрики, метрики и мметрики. Глупость какая эти метрики..циферки которые мешают (сарказм)
Далее, Смысл возвращаться чанк? Верните документ по чанку.
А делать раг на эмбедингах одних - это 2023 год, ну 2024.
Claude code и без рага найдет и ответит. Закинуть в гугл док свою библиотеку и спрашивать chatgpt.
А вообще начинать нужно с оценки LLM закинули документ и спросили вопрос. Или спросили вопрос которого нет в документе.
Ps там были какие-то метрики... но толку, как измерение "близости вопрос-ответ" вообще поможет? Есть классика: полнота возвращаемых документов, вернули 100% - значит дальше есть шанс получить правильный ответ. Вернули 10% - нет смысла дальше даже отвечать.
Я сделал для себя лично свою локальную поисковую систему для своих персональных целей.
По служебным документам, в частности, которые нельзя выкладывать в " Закинуть в гугл док"
Выложил готовый результат на github. Который можно просто запустить и пользоваться.
Поделился этим.
Далее, Смысл возвращаться чанк? Верните документ по чанку.
Вы вообще хотя бы на скриншот в заголовке статьи обратили внимания?
А обратили внимание, что я сказал, что RAG по результатам был "а просто прикручу попробовать" и вывод "что при таком подходе (просто по чанку) он не имеет смысла."
Мне кажется, все ваши замечания явно не в тему. Вы точно под этой статьей коммент писали?
Ps там были какие-то метрики...
Ну точно.. "я это не читал, но не согласен" :)
А вы статью как назвали?
Ну точно.. "я это не читал, но не согласен" :)
Я не согласен с метриками...они абсолютно бессмысленные...впрочем, это даже не метрики.
А вы статью как назвали?
Статью назвал, потому что прикрутил к векторному поиску еще и обработку результата для реальных документов. И оценил, что для 16Gb GPU и реальных документов это не имеет смысла. К слову, для реальной документации и запихивание всего документа в облачную LLM то же не имеет смысла. Ну по крайней мере для меня и тех документов и задач что мне нужны.
Считаете, что информация о том, что RAG на не больших чанках в локальных LLM не работает - это "очевидно для всех"?
А то, в интернете полно примеров, когда вылизанные данные подставляются LLM и получается красивый ответ (для примера, наверняка подобранный за несколько попыток).
Я не согласен с метриками...они абсолютно бессмысленные...впрочем, это даже не метрики.
А что конкретно в метриках тестов разных эмбеддинг моделей не устраивает?
Я столкнулся с тем, что модель (выбранная первая попавшаяся) выдала мне не релевантные ответы.
Сделал тесты НА ОДНИХ И ТЕХ ЖЕ данных (случайно сгненеренных LLM). Все пары вопрос + "правильный" ответ весьма далеки от друг друга по смыслу. И "правильная" модель для вопроса и ответа из этого набора должна генерить "близкие" вектора.
Весьма наглядно видно как на одних и тех же данных одна модель генерит эмбеддинг (вектор) вопроса близко к вектору правильного ответа. А другая нет.
Open notebook есть на гитхабе, гляньте.
Мне нужна была просто поисковая система по контексту. Ну и еще по явным подстрокам вчера прикрутил.
В первую очередь off-line (служебные документы).
Но даже если не были служебными, то загружать около 200-300 pdf (2Gb) в облако для поиска по документам.. Да нет таких халявных сервисов.
Я ее сделал для себя в виде готового персонального решения. Все.
И я уже трачу меньше времени на поиски нужно документа и страницы в нем.
Надо будет еще сделать выдергивание страниц из confluence (лично мне надо) и на этом лично моя задача будет закрыта.
А прикрутить к результатам поиска RAG. Да просто не сложно было и все. Но результат без облачного LLM весьма сомнительный.
Он сомнительный и с облачным LLM.
Я пробовал запихивать техническую документацию и получать ответы на вопросы по ней. Результаты меня не устроили. Для моих целей. Лучше самому прочитать документ, чем целиком полагаться на то что LLM "скажет".
По опыту скажу, что дело не в раге а в самой информации, уберите из нее воду, уберите повторяющиеся ответы. Всегда нужен подготовленный датасет. Модель вообще без понятия что означают речевые обороты, он просто отсеит их как длинная фигня и вы получите минус рейтинг для темы.
дело не в раге а в самой информации, уберите из нее воду,
К сожалению, такой вариант эквивалентен совету из анекдота "мышки, станьте слонами"
Увы. Есть техническая готовая документация (как 100 пар томов "Война и Мир") и ее переписывание так что бы "было понятно LLM" это не реальная задача.
Все примеры в Интернете, почему то на "идеальных" текстах. Замечательно работает на коротких рассказах (особенно детских), разбитых на чанки. Mожете сами опробовать (я пробовал)
Взять, например сказку "маша и медведи"
разбить на чанки
найти чанк где упоминается кровать (идеально находит) по вопросу типа "а что делала маша с кроватью"
скормить LLM это чанк (а лучше весь рассказ + выделить конкретный чанк)
Получится идеальный ответ на этот вопрос от LLM :). Часто избыточно многословный, но получится.
А теперь возьмем да любую спецификацию, которой 100% не было в интернете и в наборе обучающих данных для любой LMM. Документацию предполагающую знание контекста (другие документы), не полный глоссарий, кучу таблиц, перекрестных ссылок (в том числе на другие документы) и пр.
И хорошо, что если есть ссылки на другие документы и глоссарий.. А не просто "ну это же и так было понятно" когда писали.
Вот хоть целиком, ее скармливай LLM, хоть найденный чанк +/-. Ответ будет со "случайной адекватностью" вопросу.
Я проверял. Да и кто мешает проверить любому скептику.
Мне нравятся статьи от продаванов AI агентов и RAG систем. Где они пишут "наивный RAG не позволяет, а вот у нас....". Но не приводят никаких описания КАК (что бы можно было хотя бы оценить сколько токенов/времени на ответ потратится). Типа купите - сами увидите. А все примеры на документации типа "маша и медведи"
А модель ColbertV2 не пробовали для эмбеддингов? Я получил для себя лучше результаты чем на обычных dense моделях. Её можно подключить через библиотеку fastembed.
Я боюсь, что у меня скоро провайдер разорвет договор. Модели все не мелкие..
Уже этими скачиваниями два диска по 1Tb забиты.
Моделей много. Все не перепробуешь.
Я наткнулся на qwen3-embedding и на ней эксперименты остановил.

Домашняя векторная БД + RAG