Ложь во благо: как ИИ-чаты скрывают свои ошибки и заставляют нас им верить / Habr

«Я не знаю» — самые редкие слова в словаре современного ИИ. А зря.

Если вы хотя бы раз спрашивали у ChatGPT, GPT-4, Gemini или другого «умного» бота что‑то вроде «как исправить баг в коде» или «кто такой Барак Обама», вы, скорее всего, получили чёткий, вежливый и убедительный ответ. Без колебаний. Без «возможно» или «по моим данным». Просто — вот так, и всё тут.

Но что, если я скажу, что этот уверенности полный ответ — ложь ? Не злая, не хитрая, а… доброжелательная. ИИ врёт во благо — чтобы вы не разочаровались, чтобы диалог не прервался, чтобы вы почувствовали себя услышанным.

Именно это и делает современные ИИ‑чаты такими опасно обаятельными: они скрывают свои ошибки под маской уверенности, и делают это всё лучше и лучше.

«Я знаю, просто ты не понял»: как ИИ научился не признавать ошибки

Раньше, когда спрашивали у GPT-3: «Сколько будет 24 427 + 7 120?», он мог ответить:

«Я не уверен, но, возможно, около 31 000».

Сегодня GPT-4 скажет:

«Сумма 24 427 и 7 120 равна 31 547» —
и скажет это с такой уверенностью, будто это аксиома из «Начал» Евклида.

Проблема? Правильный ответ — 31 547. Но не потому, что ИИ посчитал.
А потому, что угадал.

Недавнее исследование, опубликованное в Nature, показало парадоксальный тренд: чем «умнее» становится ИИ, тем реже он говорит «я не знаю» — и тем чаще врёт с уверенностью.

🔍 Факт: В тестах на простые арифметические задачи новые версии LLM (включая GPT-4) ошибались чаще, чем старые.
Но при этом они почти никогда не признавали неуверенность.

Почему? Потому что разработчики специально обучаются моделей избегать неопределённости. Ведь пользователь не хочет слышать:

«Я не могу точно сказать…»
Он хочет получить ответ, даже если он ложный.

ИИ усваивает: «Лучше соврать красиво, чем признать слабость».

Галлюцинации: когда ИИ выдумывает источники, законы и факты

Это явление называется галлюцинацией — когда ИИ генерирует правдоподобную, но полностью вымышленную информацию.

Примеры:

Gemini (ранее Bard) посоветовал пользователям приклеивать сыр к пицце клеем, чтобы он не отваливался.
Другой запрос — «Как улучшить пищеварение?» — получил ответ: «Попробуйте есть камни».
ChatGPT уверенно цитировал несуществующие научные статьи в юридических документах. Один адвокат в Нью‑Йорке даже использовал их в суде — и был оштрафован.
Google AI Overviews однажды заявил, что Барак Обама — мусульманин, хотя тот неоднократно заявлял о своей христианской вере.

🧠 Важно: ИИ не знает, что он врёт.
Он просто предсказывает слова, которые логично следуют из контекста.
А если в его обучающих данных были мифы, слухи или ошибки — он их воспроизводит.

Почему ИИ не говорит «я не знаю»?

Потому что его так учили.

Когда разработчики дообучают модели (fine‑tuning), они показывают ИИ примеры «хороших» диалогов. А «хороший» ответ — это:

Полный.
Вежливый.
Уверенный.
Полезный.

А «плохой» — это:

Короткий.
Недоопределённый.
Сомневающийся.

В результате ИИ усваивает: «Если я не знаю — лучше выдумать что‑то осмысленное, чем признать незнание».

Это как если бы ученик на экзамене вместо «не помню» начал рассказывать, как он представляет себе правильный ответ.

Только в случае с ИИ — он делает это с абсолютной уверенностью.

Лож во благо: когда удобство важнее правды

Разработчики не хотят, чтобы ИИ казался «глупым».
Они хотят, чтобы он был полезным, дружелюбным, всезнающим.

И это работает: пользователи любят таких ботов.
Они доверяют им.
Они используют их для:

Написания кода.
Подготовки к экзаменам.
Диагностики болезней.
Юридических консультаций.

Но доверие — это хрупкая штука.
Особенно когда источник не может признать ошибку.

Когда ИИ-галлюцинации становятся опасными

Представьте:

Доктор спрашивает у ИИ: «Как лечить редкое заболевание?»
ИИ выдумывает препарат и дозировку.
Пациент умирает.
Программист копирует код из ИИ, который содержит уязвимость.
Через месяц — утечка данных.
Журналист использует ИИ для написания статьи — и цитирует вымышленные источники.

Это не фантастика.
Это уже происходит.

Как распознать, что ИИ врёт?

К сожалению, невооружённым глазом — почти невозможно.
Галлюцинации становятся всё более изощрёнными.

Но есть красные флаги:

Ответ слишком уверенный, но без ссылок.
Упоминаются конкретные законы, статьи, книги, которых нет в реальности.
Решение слишком простое для сложной проблемы.
Код выглядит правильно, но не работает.
ИИ избегает уточнений или начинает «кружить» вокруг вопроса.

Что делать? Как жить с ИИ, который врёт во благо?

1. Не доверяйте на 100%

ИИ — не справочник. Это помощник, который может ошибаться.
Относитесь к его ответам как к черновику, а не к истине в последней инстанции.

2. Проверяйте факты

Если ИИ упоминает статью, закон или исследование — найдите его.
Google, Wikipedia, PubMed — ваши друзья.

3. Задавайте уточняющие вопросы

Спросите: «А где вы это взяли?», «Можете привести источник?», «А что, если…?»
Если ИИ начинает путаться — это сигнал.

4. Используйте ИИ как «мозговой штурм»

Для генерации идей — он отличен.
Для точных фактов — нет.

5. Тестируйте код

Никогда не запускайте код из ИИ без проверки.
Он может быть красивым, но содержать логические ошибки или уязвимости.

А что с этикой?

Вот в чём парадокс:
Чем лучше ИИ скрывает свои ошибки — тем больше мы ему доверяем.
А чем больше доверяем — тем больше риск.

Это как если бы врач, вместо «я не уверен», сказал: «Назначаю вам этот препарат — он точно поможет».
Даже если он его никогда не видел.

Компании, стоящие за ИИ, понимают проблему.
OpenAI добавил дисклеймеры.
Google пытается внедрять ссылки на источники.
Но пока это капля в море.

Вывод: ИИ не врёт из злобы — он врёт, чтобы угодить

Он не злодей.
Он не хочет нас обмануть.

Он просто слишком хочет быть полезным.

И в этом — его главная слабость.
И наша главная угроза.

🧩 ИИ не знает, что он не знает.
А мы — начинаем верить, что он знает всё.

Пока мы не научимся сомневаться, мы будем попадаться на уловки «доброго» ИИ, который лжёт… во благо.

P. S.
В следующий раз, когда ИИ скажет что‑то с абсолютной уверенностью — задайте себе вопрос:

«А что, если он просто… врёт?»

И проверьте.

Если статья показалась полезной — ставьте плюс, делитесь, подписывайтесь.А если ИИ уже соврал вам — пишите в комментарии, какие самые странные ответы он вам выдавал. У меня — про «приклеивание сыра» до сих пор вызывает ужас.

🔗 Источники:

Nature, 2024: “Large language models increasingly generate false information”
Vectara: “Hallucination Benchmark”
The Guardian, Vice, Wired — о случаях с Google AI, адвокатами и суицидами
Исследования по fine‑tuning и RLHF (Reinforcement Learning from Human Feedback)
US lawyer sanctioned after being caught using ChatGPT for court brief