
LLM могут принимать на вход все большее кол-во токенов, но большое количество переданных на вход токенов, включая промт, контекст и историю переписки не равно качество ответа.
В идеале на вход LLM нужно передать минимально достаточный набор данных для получения ожидаемого качественного ответа.Ин
Иными словами, если на вход LLM дан один конкретный вопрос, то есть шанс близкий к 100%, чтоб будет получен качественный ответ. И наоборот, чем больше данных (вопросов, контекста и прочего) на вход LLM вы даете, тем больше вы понижаете качества ответа.
Поэтому в каждом конкретном случае нужно найти баланс минимального кол-ва данных на вход для RAG системы. То есть нужно оптимизировать промт и контекст получаемый из векторной БД для ответа на запрос пользователя.
При этом нужно определить качество ответов, то есть определить как мерять качество в конкретной RAG системе.
Минимальными вариантом будет следующий подход к измерению качества:
По каждому документу, который есть у нас, и который мы планируем векторизировать, нужно задать два вопроса: