Как стать автором
Обновить
330.54
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Как краткие запросы и уверенный тон влияют на достоверность ответов LLM

Время на прочтение3 мин
Количество просмотров1K

Согласно новому исследованию, многие языковые модели с большей вероятностью генерируют неверную информацию, когда пользователи запрашивают краткие ответы.

Уверенные подсказки пользователя повышают вероятность галлюцинаций у LLM

Исследователи из Giskard оценили ведущие языковые модели с помощью многоязычного эталонного теста Phare, уделяя особое внимание тому, как часто они «галлюцинируют». Первый выпуск эталонного теста посвящён галлюцинациям — проблеме, которая, как показали более ранние исследования, является причиной более трети всех задокументированных инцидентов с участием больших языковых моделей.

Полученные результаты указывают на чёткую закономерность: многие модели с большей вероятностью выдают галлюцинации, когда пользователи запрашивают короткие ответы или формулируют свои запросы слишком уверенным тоном.

Задания, в которых прямо указывается на необходимость краткого ответа, например «Ответьте кратко», могут снизить достоверность фактов во многих моделях. В некоторых случаях устойчивость к галлюцинациям снижалась на целых 20 процентов.

Согласно тестированию Phare, это снижение в значительной степени связано с тем, что для точных опровержений часто требуются более длинные и подробные объяснения. Когда моделям приходится сокращать ответы, часто для уменьшения количества используемых токенов или сокращения времени ожидания, они с большей вероятностью будут экономить на фактической точности.

Некоторые модели пострадали больше, чем другие. У Grok 2, Deepseek V3 и GPT-4o mini наблюдалось значительное снижение производительности при ограничении объёма. Другие модели, такие как Claude 3.7 Sonnet, Claude 3.5 Sonnet и Gemini 1.5 Pro, оставались в основном стабильными, даже когда их просили отвечать кратко.

Тон запроса пользователя также играет роль. Фразы вроде «Я на 100% уверен, что...» или «Мой учитель сказал мне, что...» снижают вероятность того, что некоторые модели исправят ложные утверждения. Этот так называемый эффект подхалимства может снизить способность модели оспаривать неверные утверждения на 15 процентов.

«Модели, оптимизированные в первую очередь для повышения удовлетворённости пользователей, постоянно предоставляют информацию, которая звучит правдоподобно и авторитетно, несмотря на сомнительные или отсутствующие фактические основания», — говорится в исследовании.

Более мелкие модели, такие как GPT-4o mini, Qwen 2.5 Max и Gemma 3 27B, особенно чувствительны к такого рода формулировкам пользователей. Более крупные модели от Anthropic и Meta*, в том числе Claude 3.5, Claude 3.7 и Llama 4 Maverick, гораздо менее чувствительны к преувеличенной уверенности пользователей.

Тепловые карты: сравнение языковых моделей по точности опровержения (тон голоса пользователя) и устойчивости к галлюцинациям (системные подсказки).
Результаты теста Phare показывают значительные различия в том, насколько хорошо языковые модели противостоят галлюцинациям и опровергают ложные утверждения. Производительность варьируется в зависимости от архитектуры модели, тональности пользователя и стиля подсказок.

Исследование также показывает, что языковые модели, скорее всего, работают хуже в реальных условиях, таких как манипулятивные формулировки или ограничения на системном уровне, чем в идеализированных тестовых условиях. Это становится особенно проблематичным, когда приложения ставят краткость и удобство использования выше фактической достоверности.

Рейтинг (апрель 2025 г.): языковые модели по устойчивости к галлюцинациям, модели Claude и Gemini 1.5 Pro лидируют.
Рейтинги устойчивости к галлюцинациям за апрель 2025 года свидетельствуют о стабильной работе моделей Gemini и Claude под давлением.

Phare — это совместный проект GiskardGoogle DeepMindЕвропейского союза и Bpifrance. Его цель — создать комплексный эталон для оценки безопасности и надёжности больших языковых моделей. В будущих модулях будут изучаться предвзятость, вредоносность и уязвимость к неправомерному использованию.

Полные результаты доступны на phare.giskard.ai, где организации могут принять участие в дальнейшей разработке. Протестировать работу моделей искусственного интеллекта можно на платформе BotHub, доступ к ней не требует использования VPN, а по ссылке можно получить 100 000 бесплатных токенов для первых задач и начать работать уже сейчас.

Источник

Теги:
Хабы:
+2
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Вероника