Pull to refresh

Comments 6

Спасибо за статью! Как Вы считаете, RAG в агенте лучше применять как tool для получения ответа на вопрос, либо для получения релевантных чанков (без этапа генерации)? Кажется, что релевантные чанки могут быть полезнее, чем сам ответ, но излишняя информация может агента сбить с пути

День добрый, я думаю, что все же его стоит использовать как tool. Объясню почему. Контекст вопроса может быть разный и по сути таким образом будем выдавать сырые данные. А так модель обработает и выдаст то, что нам нужно. Так что мне кажется стоит использовать все-таки его как tool. Но тем не менее, можете уточнить конкретный кейс подробней и, возможно, я смогу ответить более точно.

Весьма ценная статья! Как вы считаете, нужен ли личный AI-агент, или потребность в нем возникает только у организаций? Если нужен, то можно ли пользоваться им бесплатно без локального развертывания модели?

Почему выбрали Docling, а не DeepseekOCR, MinerU, Marker, PaddleOCR?

"Semantic - По абзацам/заголовкам " - не правильно объяснили. Это структурный чанкинг.
Семантический чанкинг - это когда текст разбивается на чанки по их семантическом отличию (т.е. выделяються атомарные мысли\идеи). Семантические чанки могут не совпадать с "абзацами\заголовками". Перед нарезкой можно дать текст LLM и попросить расставить разделительные знаки там, где по ее мнению заканчивается одна мысль и начинается другая. Затратно, но может дать прирост в качестве (но не обязательно).

Sign up to leave a comment.

Articles