Часть 4. Обзор технологий RAG для LLM: аугментация извлеченных данных
Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь). В этой, четвертой части авторы совсем скромненько, словно тренировались заполнять налоговую декларацию, разбирают технологии аугментации извлеченных данных.
Поскольку без пояснительной бригады часть их информации оказалась для меня совершенной абракадаброй, я не поленился пройтись по упомянутым авторами ссылочкам на исследования, взять оттуда схемки и картинки, и добавил их к этой части тоже. Надеюсь, с ними рассуждения и наблюдения авторов будут значительно прозрачнее. Поехали!
В рамках RAG стандартный подход часто предполагает однократный процесс поиска с последующей генерацией ответа. Однако это может приводить к ошибкам (см. рис. 1) и обычно недостаточно для сложных задач, требующих многошаговых рассуждений, так как предоставляет ограниченный объём информации.
Благодаря многочисленным исследованиям процесс поиска оптимизируется, и основные результаты представлены на рисунке 2.
А. Итеративный поиск
Итеративный поиск — это процесс многократного обращения к базе знаний на основе исходного промпта и уже сгенерированного текста, что создаёт расширенную информационную основу для LLM. Данный подход повышает надёжность генерации ответов за счёт дополнительных контекстных ссылок, полученных в ходе множественных итераций поиска. Однако он может сталкиваться с семантическими разрывами и накоплением нерелевантных данных.
ITER-RETGEN использует синергию двух методов: «генерации, усиленной поиском» и «поиска, усиленного генерацией» — для задач, где требуется точное воспроизведение информации. Модель берёт контент, необходимый для решения задачи, в качестве контекстной основы для извлечения релевантных знаний, что улучшает ответы в следующих итерациях. К примеру, для ответа на вопрос о нейросетях модель сначала генерирует черновик ответа, затем ищет уточняющие данные на его основе, после чего дорабатывает ответ (рис. 3).
Б. Рекурсивный поиск
Рекурсивный поиск часто применяется в информационном поиске (IR) и NLP для повышения глубины и релевантности результатов. Этот процесс предполагает итеративное уточнение поисковых запросов на основе результатов предыдущих этапов поиска, формируя цикл обратной связи для постепенного приближения к наиболее релевантной информации. Некоторые исследователи также отмечают, что рекурсивный поиск часто использует иерархическую структуру индекса.
Например, метод IRCoT (рисунок 4) использует цепочку рассуждений (Chain-of-Thought, CoT) для управления процессом поиска, динамически корректируя логику CoT с учетом полученных результатов.
А подход ToC создает дерево уточнений, которое систематически оптимизирует неоднозначные части запроса (рис. 5). Эти методы особенно эффективны в сложных сценариях:
когда потребности пользователя изначально неясны (например, расплывчатые формулировки в технической документации);
при работе с узкоспециализированными данными (медицинские исследования, юридические тексты).
Рекурсивная природа этого подхода позволяет системе адаптироваться к требованиям пользователя в режиме реального времени, что повышает точность и удовлетворенность результатами.
Для решения специализированных задач обработки данных рекурсивный поиск и многоуровневый поиск применяются совместно. Рекурсивный поиск использует структурированный индекс для иерархической обработки и извлечения данных. Например, он может включать предварительное создание сводки разделов документа (скажем, объёмного PDF-файла), на основе которой выполняется первичный поиск. После чего проводится вторичный поиск внутри документа для уточнения результатов, что отражает рекурсивную природу метода. В отличие от этого, многоуровневый поиск (рис. 6) предназначен для глубокого анализа графо-структурированных данных (например, графов знаний), извлекая взаимосвязанную информацию.
В. Адаптивные методы поиска
Адаптивные методы поиска, такие как Flare (рис. 7) и Self-RAG (рис. 11), улучшают архитектуру RAG, позволяя LLM самостоятельно определять оптимальные моменты и содержание для поиска информации. Это повышает эффективность и релевантность извлекаемых данных.
Эти методы встроены в общий тренд, где LLM используют активное принятие решений в своей работе, как это реализовано в агентах AutoGPT (рис. 8), Toolformer (рис. 9) и Graph-Toolformer.
Например, Graph-Toolformer разделяет процесс поиска на этапы: LLM активно задействуют ретриверы, применяют технику Self-Ask и few-shot промпты для формирования поисковых запросов. Такой активный подход позволяет моделям решать, когда искать информацию, аналогично тому, как инструменты используются автономными агентами.
WebGPT внедрил фреймворк обучения с подкреплением для тренировки модели GPT-3 в автономном использовании поисковых систем во время генерации текста (рис. 10). Процесс управляется специальными токенами, которые активируют действия: поисковые запросы, анализ результатов и цитирование источников. Это расширяет возможности GPT-3 за счёт интеграции внешних поисковых инструментов.
Flare автоматизирует поиск по времени, отслеживая уверенность модели в процессе генерации через вероятность сгенерированных токенов. Если вероятность падает ниже заданного порога, система активирует модуль поиска для сбора релевантной информации, оптимизируя цикл извлечения данных (рис. 7).
Self-RAG (рис. 11) использует токены рефлексии (retrieve и critic), которые позволяют модели анализировать свои выходные данные. Когда активировать поиск, решает либо сама модель, либо это происходит при достижении порогового значения.
Во время поиска генератор применяет фрагментный лучевой поиск для анализа нескольких абзацев и выбора наиболее связной последовательности.
Оценки critic обновляют веса фрагментов, а их гибкая настройка во время инференса позволяет адаптировать поведение модели. Self-RAG исключает необходимость дополнительных классификаторов или моделей NLI, упрощая принятие решений о запуске поиска и повышая автономность генерации точных ответов.
Продолжение следует. В следующей, 5-й части мы поговорим о техниках оценки качества систем RAG.