1endstick2 апр 2025 в 11:17

RAG без эмбеддингов для энтерпрайза (опыт ИИ-чемпионата)

Средний

6 мин

3.5K

Искусственный интеллектПоисковые технологии * Natural Language Processing * PDFData Engineering *

Кейс

Комментарии 2

vagon333 2 апр 2025 в 14:46

Помимо главных выводов, которые вы описали, включая возможность использования "тупых запросов", если я правильно понимаю, также важна предварительная обработка данных, и структурирование данных.
Иначе при росте объема документов стоимость "тупых обработок" может выйти из-под контроля.

1endstick 3 апр 2025 в 06:05

Если предполагается, что по одному документу выполняется много запросов, то предобработка нужна. Иначе, предобработка может стоить даже дороже чем "тупой поиск", при этом снижать качество (т.к. мы теряем информацию при "сжатии")

Плюс, даже по обработанной информации стоимость поиска растет с объемом информации (если это не подход на ембеддингах, где поиск выполняется не LLM, а векторной БД, хотя и у него есть проблемы с маштабированием)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий