Pull to refresh
29
0
Марк Конаков @Mark_K

Data Scientist, специализуруюсь на NLP

Send message

Согласен, тем не менее разочарование локальное есть, вот и экономист пишет:
https://www.economist.com/finance-and-economics/2024/07/02/what-happened-to-the-artificial-intelligence-revolution

К сожалению нет, но собрать такое было бы очень полезно для сообщества

Логично, если ты потом используешь ллм, то надо будет платить, если только в режиме ретривера, то нет

да, за собственный векторайзер платить не нужно, но для инициализации класса все равно нужна будет эта переменная, попробуйте просто указать os.environ['OPENAI_API_KEY'] = 0

  1. index - это просто способ хранить ваши документы, а ретривер уже возвращает релевантные документы согласно запросу

  2. Ноды - это кусочки документа фиксированной длины (на один документ может быть десятки и сотни нод)

  3. Проверить, возвращает ли ваш ретривер адекватные ноды, если да, то можно переформулировать запрос - например, "выведи все компании, с которыми были заключены договора в 2023 году"

Можно использовать оба подхода, в статье показано, как подгрузить свою модель для эмбеддингов

Можно в keywords добавить свои теги, а не генерировать их с помощью llm. Код надо будет изменить

Смотря какую версию использовать(веса же в диапазоне от 7 до 70 млрд параметров). Но без видеокарты все равно инференс медленный будет

В теории можно. Надо настроить свою модель для эмбеддингов и LLM. В продолжении как-нибудь распишу

По api у меня доступна только 3.5

Тут лучше говорить не про обучаемые данные, а про входные данные. Т.е вы на вход даете описания ваших данных, а на выходе ждете, что ИИ поймет их структуру и связи. В принципе это реально, вопрос в методологии - как сохранять промежуточные состояния, чтобы использовать их как долговременную память

Большая проблема в доступах к ресурсам. Лучше заводить в ограниченной экосистеме, где у агента потенциально есть возможность получить все необходимое.

Во время выполнения

В LangChain вы используете уже обученные модели. Агенты нужны, чтобы обращаться к разным источникам в зависимости от пользовательского ввода.

Тут имелось в виду, что помимо стандартной docs создали еще одну страничку только под query

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity