Search
Write a publication
Pull to refresh
6
0
Send message

Поделюсь своим небольшим проектом бота, вот статья https://habr.com/ru/articles/904418/
А вот бот: https://t.me/Pdflyx_bot
По общестроительным вопросам неплохо отрабатывает, а вот по градостроительству не проверял

Не вешайте на LLM указание места (пункта) источника, он не справится. Номер страницы или номер пункта нужно вытаскивать программно. Примерно так: большой объем текстовой информации (стандартов) разделяете на чанки и эти чанки сохраняете в документе. Текст в document.page_content, номер страницы в document.page_number, номер пункта document.section_number. В LLM в качестве контекста улетят чанки наиболее приближенные к вопросу пользователя, и вы уже будете знать на в каком месте документа они расположены, вытаскиваете эту информацию и прикрепляете к ответу LLM.

Спасибо за тест! Залью в гитхаб скелет от продакт версии бота, там посерьёзнее настройки, но позже, нужно подготовить. Самому интересно стал потестить на юридическом корпусе.

Полностью согласен, без фильтрации результатов RAG в контекст попадает много мусорной информации. Поэтому есть отсеивание по релевантности и на пост-процессе выборка наиболее релевантных кусков контекста для формирования референтных источников уже самой LLM, т.е.на финале модель проверяет свой ответ и ссылки на документы, что бы убедиться что ответ соответствует ожиданиям пользователя.

Information

Rating
2,429-th
Registered
Activity