Comments 4
Интересен пример: вот у нас есть pdf - документ с оглавлением, множеством пунктов и подпунктов, со щедрыми вкраплениями таблиц и рисунков - от больших схем до маленьких в тексте (вид кнопки)...
Есть ли фреймворк, который из коробки разберёт всё это на чанки и красиво упакует в БД?
этот документ не подходит для RAG
Интересный пример. А как вы решили данную проблему?
Спрашиваю не из праздного любопытства.
У меня масса документов (законы разных регуляторов) в которых как раз описаные вами вкрапления таблиц.
У LLM взрыв мозга при попытке работы с таблицами.
В конечном итоге, прихожу к выводу что нужно таблицу парсить и реструктурировать на записи. В общем, развлекуха.
есть, но не фреймворк, а типа make.com, но бесплатный, coze.com, из личного опыта, удалось туда загрузить несколько книг, там можно посмотреть как на чанки разбила система автоматически, и подредактировать если не понравилось, но у меня все разбилось нормально. "Разговаривать" c загруженными кникгами можно. Или цель какая-то другая?
Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM