Комментарии / Профиль imf1ne / Хабр

Пользователь

Подписчики

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 23 дек 2023 в 18:46

Возможность подключения собственной базы документов к ассистенту есть. Попробовать данный функционал можно на платформе openai в playground. Интегрировать с кодом не пробовал, но через API это можно сделать.

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 4 дек 2023 в 18:42

Не работал с таким инструментом

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 4 дек 2023 в 11:33

Спасибо, отличный пример, изящная реализация цепочки RetrievalQA, не был знаком с этим инструментом.

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 4 дек 2023 в 05:23

Рабочий код подобного примера со всеми пояснениями опубликован в оригинальной работе, на которую я ссылаюсь в посте: https://www.reaminated.com/run-chatgpt-style-questions-over-your-own-files-using-the-openai-api-and-langchain

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 4 дек 2023 в 05:21

Да, всё верно. И в задачах на будущее у нас много подобных вопросов. Вообще, безопасен ли ложный ответ модели? Фильтрация чувствительных данных в ответе. Защита от состязательных атак (ваш пример атаки отравления — абсолютно реальный).

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 3 дек 2023 в 19:18

Не соглашусь с первым тезисом. Если пользователь по ключевому слову "ipsec" не может найти ответа на свой вопрос, то могут быть разные тому причины, например:

В документации про это нет. Согласен, это проблема документации.
Пользователь получает много ссылок на страницы, где упоминается "ipsec". И ему сложно обработать такой объем информации в ответе. В этом случае документация "не виновата". И поможет тут "умный" поиск, если пользователь более подробно сформулирует свой запрос.

К вопросу, почему мы больше доверяем асессорам. Важно заметить: речь не про "отзыв от пользователя". Речь про оценку пользователя, насколько хороший ответ в поиске он получил. Пользователь не всегда обладает знаниями, чтобы корректно оценить качество ответа, особенно сложного и объёмного ответа. Асессор лучше знает предмет и корректнее сможет оценить качество ответа.

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 3 дек 2023 в 18:44

Всё-таки этот вопрос лучше задать разработчикам Highcharts GPT.

Но кое-что можно и прикинуть самим. В блоге у них есть подсказка — модель отвечает только по версиям до 2021 года. Значит, они даже не дополняют "контекст" вопроса свежими примерами использования своей библиотеки. Выглядит так, что этот поиск работает следующим образом: к промпту пользователя "Create a donut chart of the world's top 5 car manufacturers. Use dark mode." они дописывают в конце что-то вроде: "Use Highcharts JS library". Я задал такой вопрос модели ChatGPT, ответ по содержанию совпадает с ответом Highcharts GPT.

Подключаем умный поиск (GPT) к своей базе документов

imf1ne 3 дек 2023 в 17:04

Чтобы понять, полезные ответы или бесполезные, мы привлекли на помощь асессоров. Вместе разметили ответы поиска и оценили его качество. Совместный вывод сделали такой: польза есть и в самих ответах, табличка в посте это подтверждает.
Да, согласен, ссылки можно выдавать индексированием. Но ссылки — это точно не единственная польза. Польза есть и в ответах.
CSI явно не оценивали. Неявно — по оценкам от пользователей можно сделать первые выводы. Количество положительных оценок совпадает с количеством отрицательных оценок, но пока это статистически незначимые числа. Продолжаем набирать статистику.