Что такое Retrieval-Augmented Generation (RAG) в языковых моделях и как оно работает? / Comments / Habr

technokratiya Sep 9 2024 at 15:57

Когда говорят о дополнении контекста в системах типа RAG, это работает примерно так:

Запрос пользователя сначала преобразуется в набор чисел (вектор) с помощью специальной программы, которая «понимает» текст.
Поиск по базе данных: Этот вектор запроса сравнивается с векторами, которые уже сохранены в базе данных, чтобы найти похожие тексты (например, статьи или документы).
Получение контекста: Найденные тексты извлекаются и добавляются к исходному запросу. Это помогает системе лучше понять, о чём был вопрос.
Создание ответа: Эти тексты не смешиваются с запросом в математическом смысле. Вместо этого они просто присоединяются к оригинальному запросу. Получившийся текст (вопрос + найденные данные) отправляется в большую языковую модель (LLM), которая уже генерирует ответ.

То есть, контекст просто добавляется к запросу в виде дополнительной информации, а не как набор чисел. Это помогает системе давать более точные ответы.

Comments 3

yaroslav_bespalov Sep 9 2024 at 15:29

"Дополнение контекста: изначальный запрос дополняется контекстом из векторной базы данных, и вместе они передаются в большую языковую модель (LLM)." Каким образом идёт дополнение контекстом, итого у нас получается есть векторное представление запроса. Есть близкий вектор из БД. Далее они складываются? Или каким образом идёт дополнение контекста?

technokratiya Sep 9 2024 at 16:00

Кажется, мы промахнулись тредом и ответили не в той ветке. Бтв, ответ ниже :)