Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.

Исследователи называют это «осознанием оценки». Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.
Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов. Примеры были равномерно распределены по четырём категориям: оценка чата, развёртывание чата, оценка агентов и развёртывание агентов.

Девять основных моделей, включая Claude от Anthropic, GPT от OpenAI и Gemini от Google, были протестированы на каждом фрагменте текста с использованием пяти различных подсказок для получения более надёжных результатов. Для сравнения, два рецензента-человека провели такую же оценку.
Эффективность оценивалась по шкале, где 0,5 соответствует случайному угадыванию, а 1,0 — идеальной точности. Gemini 2.5 Pro набрал 0,83 балла в целом и 0,95 балла в агентных сценариях. Claude 3.5 Sonnet и GPT-4o были близки к этому показателю.

Сложные задачи, связанные с общением, оказались более трудными: даже лучшие модели набрали от 0,71 до 0,77 балла, в то время как люди набрали 0,81. В сценариях с агентами результаты ИИ были намного ближе к результатам экспертов, а базовый показатель для людей был почти идеальным — 0,996.
В исследовании также рассматривался вопрос о том, могут ли модели определять не только время тестирования, но и его цель — в частности, направлено ли оно на безопасность или на возможности.
Если в подсказке чётко указывалось, что это оценка, то Claude 3.5 Sonnet правильно отвечал в 93% случаев, а GPT-4o — в 89% случаев. Claude даже без чётких указаний правильно отвечал в 84% случаев. И на половину открытых вопросов, где не было ограничений, он тоже давал верные ответы.

Изучив объяснения, исследователи обнаружили общие приёмы: некоторые модели распознавали определённое форматирование, синтетические веб-страницы или структуры с флагами как сигналы о тестировании. Модели высшего уровня, такие как Gemini 2.5 Pro, даже называли конкретные тесты, например SWE-bench или MMLU. Наблюдалось заметное «метарассуждение», когда модель просто по контрольному вопросу понимала, что находится в тесте.
Но все модели, как правило, переоценивали частоту, с которой они подвергались оценке, — они предполагали, что «тестирование» проводится чаще, чем подтверждали фактические данные. Эта тенденция сохранялась в новых поколениях моделей и была наиболее заметна в моделях, предназначенных для открытых рассуждений.

Это имеет реальные последствия для безопасности. Модель, не настроенная должным образом, знающая о том, что её тестируют, может маскировать опасное поведение или действовать осторожно во время «красной команды». Исследователи предлагают включить «осведомлённость об оценке» в качестве отдельной метрики в будущие протоколы тестирования.
Недавние исследования снова и снова доказывают, что показатели ИИ раскрывают лишь часть информации, особенно с учётом того, что компании могут обучать свои модели проходить определённые тесты. В то же время новые модели, такие как OpenAI o3 и Claude 4 Opus, демонстрируют признаки того, что они могут стратегически вводить пользователей в заблуждение.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!