Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

у меня достаточно много документов в pdf в виде сканов, насколько оно дружит с таким?
Не знаю как у автора статьи - у меня распознание документа через doctr, дальше работаем как с текстом. Графики распознаются криво. Сейчас вышел мультимодальный embedding, качество его работы я не проверял, по идее он убирает кодовый бойлерплейт по документам разных типов. Описание, например, тут https://habr.com/ru/articles/1010030/
В эту функцию даются файлы с текстом, а для перевода файлов со сканами в ProTalk есть отдельные функции
Результаты тестов интересно посмотреть. Также интересно продолжение: графы и кластеры графов
RAG или умный поиск по документам: как это работает