да, за собственный векторайзер платить не нужно, но для инициализации класса все равно нужна будет эта переменная, попробуйте просто указать os.environ['OPENAI_API_KEY'] = 0
index - это просто способ хранить ваши документы, а ретривер уже возвращает релевантные документы согласно запросу
Ноды - это кусочки документа фиксированной длины (на один документ может быть десятки и сотни нод)
Проверить, возвращает ли ваш ретривер адекватные ноды, если да, то можно переформулировать запрос - например, "выведи все компании, с которыми были заключены договора в 2023 году"
Тут лучше говорить не про обучаемые данные, а про входные данные. Т.е вы на вход даете описания ваших данных, а на выходе ждете, что ИИ поймет их структуру и связи. В принципе это реально, вопрос в методологии - как сохранять промежуточные состояния, чтобы использовать их как долговременную память
Согласен, тем не менее разочарование локальное есть, вот и экономист пишет:
https://www.economist.com/finance-and-economics/2024/07/02/what-happened-to-the-artificial-intelligence-revolution
К сожалению нет, но собрать такое было бы очень полезно для сообщества
Логично, если ты потом используешь ллм, то надо будет платить, если только в режиме ретривера, то нет
да, за собственный векторайзер платить не нужно, но для инициализации класса все равно нужна будет эта переменная, попробуйте просто указать os.environ['OPENAI_API_KEY'] = 0
index - это просто способ хранить ваши документы, а ретривер уже возвращает релевантные документы согласно запросу
Ноды - это кусочки документа фиксированной длины (на один документ может быть десятки и сотни нод)
Проверить, возвращает ли ваш ретривер адекватные ноды, если да, то можно переформулировать запрос - например, "выведи все компании, с которыми были заключены договора в 2023 году"
Можно использовать оба подхода, в статье показано, как подгрузить свою модель для эмбеддингов
Можно в keywords добавить свои теги, а не генерировать их с помощью llm. Код надо будет изменить
Смотря какую версию использовать(веса же в диапазоне от 7 до 70 млрд параметров). Но без видеокарты все равно инференс медленный будет
В теории можно. Надо настроить свою модель для эмбеддингов и LLM. В продолжении как-нибудь распишу
Да, можно свою подгрузить https://gpt-index.readthedocs.io/en/latest/core_modules/model_modules/llms/usage_custom.html
вот же он https://github.com/Significant-Gravitas/Auto-GPT/blob/master/.env.template
По api у меня доступна только 3.5
Спасибо!
Тут лучше говорить не про обучаемые данные, а про входные данные. Т.е вы на вход даете описания ваших данных, а на выходе ждете, что ИИ поймет их структуру и связи. В принципе это реально, вопрос в методологии - как сохранять промежуточные состояния, чтобы использовать их как долговременную память
Большая проблема в доступах к ресурсам. Лучше заводить в ограниченной экосистеме, где у агента потенциально есть возможность получить все необходимое.
Во время выполнения
В LangChain вы используете уже обученные модели. Агенты нужны, чтобы обращаться к разным источникам в зависимости от пользовательского ввода.
Да, решений уже множество. Вот например https://github.com/amoramine/Pegasus_with_Longformer_summarization
Тут имелось в виду, что помимо стандартной docs создали еще одну страничку только под query