Pull to refresh

Comments 12

А насыпьте, пожалуйста, побольше подробностей: какой стек, какая модель, какие инструкции.
Если взять ванильную бесплатную версию от любого крупного провайдера, чтобы она чисто грепала документацию, без четких инструкций - то это вполне себе ожидаемое поведение.

Это большая языковая модель - её задача предугадывать и выдумывать. Наше счастье, что мы научились из этого извлекать то, что многие извлекают.

История о том как мы хотели чтоб клиенты не беспокоили проблемами, а только оплачивали, но тут что-то пошло не так. Непонятно что у вас за сервис, но если есть поддержка, то на входит в ожидания клиента и подразумевает поддержку а не сухоеотваливание на бота. Как же это противно выглядит, клиентов совсем не уважать.

Странное описание, LLM так не работает. С учётом промптов и rag так плохо быть не должно.

Впрочем, в статье абсолютно нет конкретики. Никаких показателей по ошибочным ответам, никакого пайплайна...

Такое ощущение, что взяли из интернета реальную проблему LLM и натянули её на необходимость написать проходную статью на Хабр.

Он именно так и работает. Только вчера наткнулся на подобное - запрашиваю наш ИИ сделать мне запрос к базе данных, описываю его словами в надежде получить то же, что уже давно используется. Он выдает что-то забубенное... Я ему даю свой работающий вариант - а так можно? Он мне - нет! Это ошибка! И типа показывает, будто он вот запускает мой вариант и получает от базы сообщение об ошибке! И пишет объяснение о том, почему этот запрос не может работать. Офигеть... Я ему пишу - это работающий запрос, нет там ошибки. Он мне - да, верно, это же работающий запрос! И начинает мне объяснять, почему он работает...

проблема во «временной деградации webhook worker в EU‑регионе».

Универсальный способ послать. Возьму за заметку.

А то старый способ уже не работает
А то старый способ уже не работает

Ну очень похоже на поведение Google.com/ai - тот тоже категорически отказывается признавать поражение и до упора будет пытаться ответить на вопрос или сгенерировать код "выдувая" различные факты, зачастую, вообще не относящиеся к текущему вопросу.

bullshit in -> bullshit out. С ИИ это работает пугающе показательно.

А так да, И Ина конфигурить, дообучать, промты писать правильно, тестирование делать постоянно и все такое. Тогда вероятность подобных косяков снизится.

Я бы предлоджил простой фикс: заставлять ИИ всегда искать пруфлинки, перепроверять себя перед ответом и отдавать клиент чтобы он мог самперейти и почитать, что написано.

Rag изобрели же как раз для такого) да даже тот же notebook lm от Гугла выдает ответ только из источников… но нет будем интегрировать ИИ говно на хайпе и удивлятся

Проблема современных ИИ — не в галлюцинациях.

Проблема современных ИИ в том, что неумение их настроить выдают за галлюцинации ИИ.

Реально узнаваемая история. У нас похожее было с Code-агентом, который уверенно "вспоминал" архитектурные решения которых никогда не было. Вылечилось двумя вещами: явная инструкция "если не нашёл в контексте, напиши что не знаешь, не выдумывай" и принудительная верификация ответа на наличие конкретного факта из базы знаний перед отправкой. Второе важнее первого, потому что инструкцию про "не выдумывай" модель выполняет непоследовательно, а верификация факта это уже детерминированная проверка.

Мы слишком поздно поняли главную проблему: она не в самих ошибках, а в том, что пользователи (а вместе с ними и мы) очень быстро начинают доверять тону и уверенности ИИ‑ассистента

Не в самих ошибках? То есть, пользователь, обратившийся в поддержку должен не доверять её ответам? Серьёзно?

Sign up to leave a comment.

Articles