Comments 5
Не очень понял. RAG в основном используется, чтобы подтянуть данные пользователя. Например, у банка там информация о тарифах, описание режимов работы, действий сотрудников и так далее. Эти документы постоянно обновляются.
В бизнесе крупные компании используют RAG в связке с развернутыми llm внутри компании, так как не одна служба безопасности не даст добро на внешние LLM.
И это могут быть сотни файлов или больше. Там могут быть результаты ответов и выгрузки. Я так понимаю описанный подход работает в рамках небольших компаний, которые внутри своего продукта используют openai или другие подобные llm. И все равно не понял, как данный подход позволит динамически обеспечить доступ к такой информации? Стажёр заполняющий файлы тут отпадает, у банка может быть десятки подразделений с кучей информации , которая обновляется каждый день. А если таких ручных файлов будет тысячи? Филиал А сегодня изменил тарифы, филиал В выпустил новый регламент, филиал С выгрузил новые юридические документы и так далее. Пока кроме RAG тут ничего лучше не придумали.
Поправьте меня, если ошибаюсь и не правильно понял статью.
RAG подразумевает tool_call, помимо оплаты генерации embedding.
- Это дороже в эксплуатации так как сама запись в RAG базу платная (генерация embeddings)
- Это дороже в программировании, так как это нужно программировать и администрировать в класическом понимании (DevOps, DBA)
- Это медленней на порядок, так как tool_calling подразумевает запуск LLM модели второй раз после получения ответа
- Это медленней, так как Embedding поиск подразумевает большой трафик памяти (2 миллиона записей будут обрабатываться 30 секунд)
- Это плохо применимо к русскому языку, так как nomic-embed-text релизнулся 2023-11-01, разве что делать вендор лок под яндекс
Fine tuning подразумевает, что думает сам ИИ, а не база данных
- Малому и среднему бизнесу дешего взять студента текстовика, можно и бесплатно
- Обновление дообучение модели можно автоматизировать скриптом
- Базу данных не нужно мониторить на предмет поломки, так как её нет: нейронка ничего не пишет на жесткий диск вовсе, а вся работает в оперативе видеокарты как stateless.
Так же, рекомендую посмотреть https://docs.docker.com/desktop/features/model-runner/
Это Docker Model Runner. Представьте будущее, где вам не то, что не нужно программировать, а не дадут писать код для RAG, так как это не безопасно. Только обучать модели.
Fine tuning роя агентов