imf1ne3 дек 2023 в 15:00

Подключаем умный поиск (GPT) к своей базе документов

Простой

7 мин

26K

Машинное обучение * Искусственный интеллект

Кейс

✏️ Технотекст 2023

+19

Комментарии 25

kolabaister 3 дек 2023 в 16:45

Интересная идея, но вот ответы по моему бесполезны. Пара полезных слов и много воды. Единственное ценное - ссылки, но ведь их можно и простым индексированием выдавать.
Вы оценивали CSI?

imf1ne 3 дек 2023 в 17:04

Чтобы понять, полезные ответы или бесполезные, мы привлекли на помощь асессоров. Вместе разметили ответы поиска и оценили его качество. Совместный вывод сделали такой: польза есть и в самих ответах, табличка в посте это подтверждает.
Да, согласен, ссылки можно выдавать индексированием. Но ссылки — это точно не единственная польза. Польза есть и в ответах.
CSI явно не оценивали. Неявно — по оценкам от пользователей можно сделать первые выводы. Количество положительных оценок совпадает с количеством отрицательных оценок, но пока это статистически незначимые числа. Продолжаем набирать статистику.

mtop 3 дек 2023 в 17:36

а как подобную штуку реализовать?
https://www.highcharts.com/chat/gpt/

imf1ne 3 дек 2023 в 18:44

Всё-таки этот вопрос лучше задать разработчикам Highcharts GPT.

Но кое-что можно и прикинуть самим. В блоге у них есть подсказка — модель отвечает только по версиям до 2021 года. Значит, они даже не дополняют "контекст" вопроса свежими примерами использования своей библиотеки. Выглядит так, что этот поиск работает следующим образом: к промпту пользователя "Create a donut chart of the world's top 5 car manufacturers. Use dark mode." они дописывают в конце что-то вроде: "Use Highcharts JS library". Я задал такой вопрос модели ChatGPT, ответ по содержанию совпадает с ответом Highcharts GPT.

mtop 4 дек 2023 в 00:01

Ну и с другой стороны их система не отвечает на вопросы за пределами вопросов Highcharts , но с удовольствием расскажет как это юзать

yrub 4 дек 2023 в 12:37

есть instruct модели, которые пишут четко что в промпте одним ответом, а большая часть промпта будет системная, которую вы не видете. в ней будет написано что-то типа "напиши js код используя следующие функции.." ну и там будет перечень функций с описанием. есть путь посложнее - дообучение. месяца 3 это есть в chatgpt, дообучить не дорого стоит.

ЗЫ: при желании наверно можно заставить написать не код, надо эксперементировать

mtop 4 дек 2023 в 12:49

Перечитал ваш ответ.... согласен с версией

flyoz 6 дек 2023 в 05:36

Легко, вам нужен интерпретатор кода.

talraaash 3 дек 2023 в 19:17

Если пользователь по ключевому слову в простом поиске "dmz" или "ipsec" не может найти ответа на свой вопрос по этой теме, то проблема в самой документации.

Асессорам мы доверяем больше, чем пользователям. Поэтому смотрим на самый правый столбец.

А почему? На мой вкус реальный отзыв от пользователя системы актуальнее для понимания решает ли эта система поставленную задачу. Нежели несколько деформированное восприятие человека цель которого не решить проблему с помощью инструмента, а протестировать инструмент.

imf1ne 3 дек 2023 в 19:18

Не соглашусь с первым тезисом. Если пользователь по ключевому слову "ipsec" не может найти ответа на свой вопрос, то могут быть разные тому причины, например:

В документации про это нет. Согласен, это проблема документации.
Пользователь получает много ссылок на страницы, где упоминается "ipsec". И ему сложно обработать такой объем информации в ответе. В этом случае документация "не виновата". И поможет тут "умный" поиск, если пользователь более подробно сформулирует свой запрос.

К вопросу, почему мы больше доверяем асессорам. Важно заметить: речь не про "отзыв от пользователя". Речь про оценку пользователя, насколько хороший ответ в поиске он получил. Пользователь не всегда обладает знаниями, чтобы корректно оценить качество ответа, особенно сложного и объёмного ответа. Асессор лучше знает предмет и корректнее сможет оценить качество ответа.

talraaash 3 дек 2023 в 20:28

Пользователь получает много ссылок на страницы, где упоминается "ipsec". И ему сложно обработать такой объем информации в ответе. В этом случае документация "не виновата". И поможет тут "умный" поиск, если пользователь более подробно сформулирует свой запрос.

Для этого используют не один ключ в поиске) Я понимаю, что "гугление" - забытая техника древних, но не до такой же степени. И мы снова упремся в то насколько хорошо написана документация, охватывает ли она весь функционал софта и т.п.. Перевод тех документации в "упрощенный человеко читаемый формат" с помощью нейронки - хорошая задача для разминки. Но для реальных юзкейсов сомнительно... человек не знающий что такое DMZ не будет у нейронки спрашивать советов по его настройке, а знакомый со значением термина довольно легко найдет нужный раздел в документации. А абстрактные кейсы "Как заблокировать сайт Х" решаются хорошим FAQ или рекапом текста документаци, тут как раз может помочь нейронка сократить время на подсвечивание основных сценариев использования и функций софта.

Речь про оценку пользователя, насколько хороший ответ в поиске он получил. Пользователь не всегда обладает знаниями, чтобы корректно оценить качество ответа

Но задача пользователя не решена или решена отсюда и оценка пользователя по качеству ответа. И это важнейший критерий качества ответа, нет?

Mike_666 3 дек 2023 в 20:24

Называйте меня пароноиком, но таки интеграция помошника на базе OpenAI API в справочную систему для ПО обеспечения безопасности ориентированного на рынок РФ в текущей геополитической ситуации напрашивается на ачивки:

Утечка сведений об особенностях конкретных инсталяций этого самого ПО (через вопросы пользователей с конкретными настройками)
Первая успешная атака вида 'автоматизация приёмов социальной инженерии для создания заведомо уязвимых конфигураций посредством llm'

imf1ne 4 дек 2023 в 05:21

Да, всё верно. И в задачах на будущее у нас много подобных вопросов. Вообще, безопасен ли ложный ответ модели? Фильтрация чувствительных данных в ответе. Защита от состязательных атак (ваш пример атаки отравления — абсолютно реальный).

Nabusteam 3 дек 2023 в 22:41

Как для хаброуровня ждал какой то код с описанием. По факту только два слова langchain и retrievalqa.

imf1ne 4 дек 2023 в 05:23

Рабочий код подобного примера со всеми пояснениями опубликован в оригинальной работе, на которую я ссылаюсь в посте: https://www.reaminated.com/run-chatgpt-style-questions-over-your-own-files-using-the-openai-api-and-langchain

Ol0lO 4 дек 2023 в 11:32

Все это реализовано в flowiseai

imf1ne 4 дек 2023 в 11:33

Спасибо, отличный пример, изящная реализация цепочки RetrievalQA, не был знаком с этим инструментом.

yrub 4 дек 2023 в 12:51

это реализовано уже и в chatgpt, называется gptx.

dimnsk 4 дек 2023 в 12:56

промпт покажите?

text_splitter = CharacterTextSplitter(chunk_size=512 , chunk_overlap=0)
это все варианты разделения?

thunderspb 4 дек 2023 в 18:32

А llama index не пробовали?

imf1ne 4 дек 2023 в 18:42

Не работал с таким инструментом

thunderspb 4 дек 2023 в 19:09

Посмотрите, оно как раз для аггрегации внутренней документации, причём из разных источников, типа пдф, док и много чего другого. Индексирует и отправляет в чатгпт. Идея крутая, но я, как далёкий человек от мл/ии, примерно заставил это работать и оно хорошие ответы выдает, но обрезанные. Скорее всего, чтото подтюнить надо :)

AlexanderAnisimov 6 дек 2023 в 06:16

Хотелось бы узнать ваше мнение по поводу (потенциальной) возможности применения этого инструмента https://habr.com/ru/articles/778414/ к вашей задаче. Я имею ввиду прикрепить вашу базу документов к ассистенту и потом разговаривать с этим ассистентом.

imf1ne 23 дек 2023 в 18:46

Возможность подключения собственной базы документов к ассистенту есть. Попробовать данный функционал можно на платформе openai в playground. Интегрировать с кодом не пробовал, но через API это можно сделать.

mokaton 6 мая 2024 в 21:47

Не знаю на сколько ещё актуально, но хотел бы добавить: Яндекс выкатил свой новый ЖПТ - YandexGPT 3. Намного лучше работает на русском языке. Для данных на могучем намного лучше, чем решение от OpenAI. На мой взгляд.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий