tripolskypetr Apr 4 at 17:55

Fine tuning роя агентов

Easy

5 min

2.3K

TypeScript * JavaScript * Python * Artificial IntelligenceMachine learning *

Tutorial

Comments 5

proxy3d Apr 4 at 19:54

Не очень понял. RAG в основном используется, чтобы подтянуть данные пользователя. Например, у банка там информация о тарифах, описание режимов работы, действий сотрудников и так далее. Эти документы постоянно обновляются.

В бизнесе крупные компании используют RAG в связке с развернутыми llm внутри компании, так как не одна служба безопасности не даст добро на внешние LLM.

И это могут быть сотни файлов или больше. Там могут быть результаты ответов и выгрузки. Я так понимаю описанный подход работает в рамках небольших компаний, которые внутри своего продукта используют openai или другие подобные llm. И все равно не понял, как данный подход позволит динамически обеспечить доступ к такой информации? Стажёр заполняющий файлы тут отпадает, у банка может быть десятки подразделений с кучей информации , которая обновляется каждый день. А если таких ручных файлов будет тысячи? Филиал А сегодня изменил тарифы, филиал В выпустил новый регламент, филиал С выгрузил новые юридические документы и так далее. Пока кроме RAG тут ничего лучше не придумали.

Поправьте меня, если ошибаюсь и не правильно понял статью.

tripolskypetr Apr 5 at 02:32

RAG подразумевает tool_call, помимо оплаты генерации embedding.

- Это дороже в эксплуатации так как сама запись в RAG базу платная (генерация embeddings)

- Это дороже в программировании, так как это нужно программировать и администрировать в класическом понимании (DevOps, DBA)

- Это медленней на порядок, так как tool_calling подразумевает запуск LLM модели второй раз после получения ответа

- Это медленней, так как Embedding поиск подразумевает большой трафик памяти (2 миллиона записей будут обрабатываться 30 секунд)

- Это плохо применимо к русскому языку, так как nomic-embed-text релизнулся 2023-11-01, разве что делать вендор лок под яндекс

Fine tuning подразумевает, что думает сам ИИ, а не база данных

- Малому и среднему бизнесу дешего взять студента текстовика, можно и бесплатно

- Обновление дообучение модели можно автоматизировать скриптом

- Базу данных не нужно мониторить на предмет поломки, так как её нет: нейронка ничего не пишет на жесткий диск вовсе, а вся работает в оперативе видеокарты как stateless.

holodoz Apr 5 at 06:40

А сколько по времени занимает файнтюнинг?

tripolskypetr Apr 5 at 07:31

15 минут

tripolskypetr Apr 5 at 04:43

Так же, рекомендую посмотреть https://docs.docker.com/desktop/features/model-runner/

Это Docker Model Runner. Представьте будущее, где вам не то, что не нужно программировать, а не дадут писать код для RAG, так как это не безопасно. Только обучать модели.