xuxur May 22 at 17:14

Как мы подключили LLM к поддержке, а получили идеального лжеца

5 min

15K

Artificial IntelligenceIT Infrastructure *

Case

From sandbox

+17

Comments 23

LLlAMuJIb May 22 at 17:31

А насыпьте, пожалуйста, побольше подробностей: какой стек, какая модель, какие инструкции.
Если взять ванильную бесплатную версию от любого крупного провайдера, чтобы она чисто грепала документацию, без четких инструкций - то это вполне себе ожидаемое поведение.

Это большая языковая модель - её задача предугадывать и выдумывать. Наше счастье, что мы научились из этого извлекать то, что многие извлекают.

chrooter May 22 at 17:36

История о том как мы хотели чтоб клиенты не беспокоили проблемами, а только оплачивали, но тут что-то пошло не так. Непонятно что у вас за сервис, но если есть поддержка, то на входит в ожидания клиента и подразумевает поддержку а не сухоеотваливание на бота. Как же это противно выглядит, клиентов совсем не уважать.

Kamil_GR May 22 at 18:09

Странное описание, LLM так не работает. С учётом промптов и rag так плохо быть не должно.

Впрочем, в статье абсолютно нет конкретики. Никаких показателей по ошибочным ответам, никакого пайплайна...

Такое ощущение, что взяли из интернета реальную проблему LLM и натянули её на необходимость написать проходную статью на Хабр.

nomick May 23 at 16:33

Он именно так и работает. Только вчера наткнулся на подобное - запрашиваю наш ИИ сделать мне запрос к базе данных, описываю его словами в надежде получить то же, что уже давно используется. Он выдает что-то забубенное... Я ему даю свой работающий вариант - а так можно? Он мне - нет! Это ошибка! И типа показывает, будто он вот запускает мой вариант и получает от базы сообщение об ошибке! И пишет объяснение о том, почему этот запрос не может работать. Офигеть... Я ему пишу - это работающий запрос, нет там ошибки. Он мне - да, верно, это же работающий запрос! И начинает мне объяснять, почему он работает...

KonstantinTokar May 24 at 01:29

Я сейчас в подобных диалогах по пол дня провожу. ИИ даёт совет, я пишу аргументацию что совет неправильный, и получаю ответ в стиле "да, ты сделал ошибку, сделай теперь вот так"... Через пару итераций возвращаемся к ошибке. Deepseek, ChatGPT, Grok, Google - все так делают.

Dhwtj May 22 at 18:13

проблема во «временной деградации webhook worker в EU‑регионе».

Универсальный способ послать. Возьму за заметку.

jorgvonfrundsberg May 25 at 18:28

Мда, раньше ссылались на "ретроградный Меркурий" )

Fox_exe May 22 at 19:31

Ну очень похоже на поведение Google.com/ai - тот тоже категорически отказывается признавать поражение и до упора будет пытаться ответить на вопрос или сгенерировать код "выдувая" различные факты, зачастую, вообще не относящиеся к текущему вопросу.

sergey_prokofiev May 22 at 20:29

bullshit in -> bullshit out. С ИИ это работает пугающе показательно.

А так да, И Ина конфигурить, дообучать, промты писать правильно, тестирование делать постоянно и все такое. Тогда вероятность подобных косяков снизится.

Я бы предлоджил простой фикс: заставлять ИИ всегда искать пруфлинки, перепроверять себя перед ответом и отдавать клиент чтобы он мог самперейти и почитать, что написано.

botyzanzylyvseNIKI May 23 at 06:56

Rag изобрели же как раз для такого) да даже тот же notebook lm от Гугла выдает ответ только из источников… но нет будем интегрировать ИИ говно на хайпе и удивлятся

KonstantinTokar May 24 at 01:36

Я наткнулся на этот раг. Я передал документ, попросил сделать анализ и ответить на вопрос. Ответ был неправильный. Оказалось, ии прооптимизировал и взял ответ не из моего документа, а из похожего какого то.

И это хорошо, а то от этих ии совсем тоскливо становится. Всё таки он пока меня заменить не может.

botyzanzylyvseNIKI May 24 at 04:10

это НЕ RAG тогда:) если ИИ может брать откудото (предполагаю интернет?) то это не то :)
или ты про ноутбук ЛМ?

KonstantinTokar May 24 at 08:52

Это совсем не раг, но выглядит как раг. И если не рпзбираться в теме - то как отловить враньё, если дал документацию, получил ответ вроде по документации.

Chudoyudin May 23 at 04:10

Проблема современных ИИ — не в галлюцинациях.

Проблема современных ИИ в том, что неумение их настроить выдают за галлюцинации ИИ.

Dhwtj May 23 at 05:04

У вас skill issue/ ad hominem отклеился.

Ra2007 May 23 at 07:02

Реально узнаваемая история. У нас похожее было с Code-агентом, который уверенно "вспоминал" архитектурные решения которых никогда не было. Вылечилось двумя вещами: явная инструкция "если не нашёл в контексте, напиши что не знаешь, не выдумывай" и принудительная верификация ответа на наличие конкретного факта из базы знаний перед отправкой. Второе важнее первого, потому что инструкцию про "не выдумывай" модель выполняет непоследовательно, а верификация факта это уже детерминированная проверка.

Uint32 May 23 at 07:14

Мы слишком поздно поняли главную проблему: она не в самих ошибках, а в том, что пользователи (а вместе с ними и мы) очень быстро начинают доверять тону и уверенности ИИ‑ассистента

Не в самих ошибках? То есть, пользователь, обратившийся в поддержку должен не доверять её ответам? Серьёзно?

wmgeek May 24 at 02:57

К сожалению, лепить отмазки эта штука умеет еще лучше чем просто выдумывать ответы. С установкой быть «поддерживающим» к пользователю, предыдущий ответ как якорь тянет в пучину.

denisemenov May 24 at 09:13

Самое неприятное — ИИ почти никогда не говорил «не знаю»

Вот это меня лично удивило больше всего.

Но ведь этой проблеме примерно столько же лет, сколько всем этим LLM?

Dhwtj May 24 at 11:24

Это не решаемо принципиально пока у них единственный учитель догма.

Они сами должны учиться, сравнивая разные источники, включая критическое мышление.

Можно ещё лет 5 подождать, не успеют решить до лопнувшего пузыря (сразу после IPO)

Nickroc May 24 at 11:46

Это не ии, это штука которая угадывает, следующий токен на базе той информации, которой ей скормили. Когда это поймёшь, то сразу все становится на свои места и начинаешь видеть где эта штука нужна, и границы того, что ей можно доверить. Спроси у ллм, что такое помидор, она ответит - красный фрукт (овощ), но на самом деле она не знает, что такое красный и что такое фрукт. Просто эти токены постоянно крутятся вокруг токена помидор в обучающих данных. Конечно, все это очень упрощённо и есть сотни приблуд вокруг и сверху, но суть именно в этом

stepigal May 24 at 22:17

Посетите aiprompting.ru/ppef и у вас будет больше понимания почему это происходит и как это лечить

ZODIACwv May 25 at 05:00

температуру пониже, в инструкции дописать чет типа "за ответ "не знаю" в ситуациях, где ответ отсутствует в документации, ты получаешь чуть больше баллов, чем за найденный ответ". хотя юзать большин модели для таких задач - оверзед, проше свое склепать и об3чить чисто на своей доке