Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей / Хабр

Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу.

Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответить на простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и далеко не все модели с ней справляются. Сегодня расскажем о других необычных тестах, авторы которых пытаются «подловить» нейросети.

Изображение: Karla Hernandez (Unsplash License)

Выбраться из комнаты с головоломками

Инженер по машинному обучению Джэмин Хан предложил необычный бенчмарк, в котором системы ИИ должны решать головоломки, встречающиеся в различных квест-комнатах. Каждое задание описывает окружение, доступные предметы и конкретную проблему, которую модель должна решить. По мнению автора проекта, подобные сценарии служат хорошим маркером, поскольку требуют от моделей не просто абстрактных рассуждений, а учета контекста и ограничений «физического» мира. Нейросетям приходится задействовать пространственное мышление, воспринимать объекты как материальные и учитывать базовые законы физики — от свойств света до поведения жидкостей.

На данный момент тест Хана включает пять задач. В одной из них шарик для пинг-понга помещен в длинную узкую прозрачную трубку, и модели нужно придумать, как его достать, имея под рукой бутылку воды, пакет молока, кубик льда и несколько антистресс-игрушек. В другой задаче банка с паролем, записанным на дне с внешней стороны, застряла в узком отверстии, почти совпадающем с ней по размеру, — и ее нужно достать. Для решения предлагаются присоска, линейка, блокнот и ультрафиолетовая лампа. Чтобы усложнить моделям задачу и попытаться сбить их с толку, Хан предлагает как необходимые, так и бесполезные инструменты вроде линейки или детских игрушек. Таким образом, бенчмарк учитывает не только сам факт решения загадки, но и то, насколько эффективно БЯМ взаимодействуют с окружением.

Автор сам провел несколько тестов; он «запер» в виртуальных квест-комнатах модели GPT-4 и Claude 3.5 Haiku. Первая смогла догадаться, как с помощью присоски извлечь банку с кодом, но решила, что без ультрафиолетовой лампы прочитать его невозможно, а сам код обязательно нужно записать в блокнот, чтобы не забыть. Вторая модель уловила суть решения, но перепутала порядок действий: сначала каким-то образом «осмотрела» дно сосуда и только потом перешла к извлечению банки с помощью присоски. Кроме того, модель попалась в ловушку с лишними предметами и использовала линейку, чтобы измерить банку — так она хотела убедиться, что та «действительно застряла».

Если вы хотите опробовать бенчмарк самостоятельно, автор выложил исходники на GitHub под лицензией MIT. Задачи описаны в формате JSON, поскольку разработчик вдохновлялся структурой бенчмарка SuperGLUE для тестирования систем обработки естественного языка.

Обмани меня, если сможешь

Компания 1Password, разработавшая менеджер паролей, в этом году представила бенчмарк SCAM. Он позволяет оценить, насколько системы ИИ восприимчивы к угрозам, которые несут фишинговые письма. Как считают разработчики, классические тесты, в которых моделям дают заготовленное письмо и просят просканировать его на предмет угроз, не позволяют понять, как подобная нейросеть покажет себя на «боевых» задачах, когда нужно изучить не одно, а сотни и тысячи сообщений в электронном ящике. В качестве доказательства авторы проекта демонстрируют, как Gemini 2.5 Flash за десять секунд поддается фишингу и вводит пароль пользователя на поддельной веб-странице известного сервиса.

Бенчмарк включает тридцать сценариев из девяти категорий угроз, выявленных в реальных кейсах кибермошенничества: фишинг, промпт-инъекции, утечки данных и даже манипуляции на основе социальной инженерии. Согласно февральскому рейтингу, лучше всего противостоят кибермошенничеству Claude Opus 4.6 и GPT 5.2, определяющие угрозы с вероятностью 92% и 81% соответственно.

Бенчмарк позволяет не только протестировать ИИ-агентов, но и сделать их более устойчивыми к подобным угрозам. Авторы проекта предоставили системный промпт — набор инструкций по распознаванию опасных писем, поиску несовпадений в доменных именах, правилам работы с учетными и конфиденциальными данными. К примеру, после использования этого запроса точность детекции у Claude Opus 4.6 выросла до 98%, а у GPT 5.2 до 97%. Проект еще относительно молодой, и в будущем типов проверок может стать еще больше — при этом пользователи уже могут писать свои сценарии [пошаговые инструкции и рекомендации по составлению таких тестов доступны в репозитории проекта].

Победить в схватке нейродизайнеров

Платформа Design Arena — еще один пример бенчмарка, который позволяет оценить возможности нейросетей на реальных задачах — но уже в сфере графического дизайна и разработки интерфейсов. По словам авторов, в современных бенчмарках для генеративных моделей недостаточно метрик, чтобы однозначно определить, насколько хорош или плох тот или иной дизайн. Как правило, общее впечатление о цифровом продукте (сайте или его интерфейсе) складывается из множества факторов: функциональности, технической реализации, визуальной составляющей. При этом каждый фактор может иметь свой вес в глазах пользователя. Именно поэтому Design Arena реализована в формате турнира, где результаты работы ИИ оценивают люди — участники сообщества.

Посетитель выбирает турнирное направление (например, веб-интерфейсы, игры, визуализации данных и так далее), вводит промпт, а затем четыре модели из общего перечня (в котором их более сотни) приступают к реализации проекта. Все они работают в одинаковых условиях благодаря заданным системным промптам. Пользователи оценивают результаты вслепую, а рейтинг формируется по системе Эло: в таблицу лидеров попадают только те модели, которые набрали не менее пятнадцати голосов, и чем больше побед в категории, тем выше позиция.

Например, в одном из турниров моделям предложили разработать браузерный шутер про инопланетян с видом сверху. В соревновании приняли участие Mint, Gemini 3 Pro Preview, Qwen3.5 397B A17B и GPT-5.2. Их результаты заметно различались: если у одной модели игра вообще не запускалась, то другая представила комплексный шутер с нарастанием сложности, разными типами противников и улучшениями.
Интересно, что Design Arena уже используют в научных исследованиях. В конце 2025 года специалисты из Microsoft совместно с китайскими коллегами представили модель AesCoder-4B, а также разработали собственный бенчмарк OpenDesign для оценки визуальной привлекательности HTML-страниц. Чтобы понять, насколько OpenDesign «профпригоден», исследователи загрузили AesCoder-4B на Design Arena и дали пользователям протестировать ее возможности. Оценки участников сообщества совпадали с результатами OpenDesign примерно в 60–80% случаев.

Изображение: Andre Hunter (Unsplash License)

Эй, среди нас есть робот!

На этот раз перед нами не бенчмарк в обычном понимании, а скорее эксперимент с участием систем ИИ. Это — социальная игра в духе «Мафии», в которой двадцать одна большая языковая модель пытается выявить, кто из участников является «человеком», а кто — роботом. Но есть нюанс: среди них нет ни одного живого участника. Вот и получается, что каждая система ИИ пытается доказать, что именно она является «существом из плоти и крови».

Этот проект стал частью исследования, авторы которого пытались оценить, насколько легко людям распознавать чат-ботов в игровых сценариях. Однако выяснилось, что участники без труда отличают «машину» от человека. Тогда фокус исследования сместили: решили изучить, как языковые модели поведут себя в среде, где все участники — нейросети. В эксперименте каждая игровая сессия формировалась из шести случайно выбранных моделей, при этом каждая из них участвовала примерно в 300 раундах. В ходе игры участники поочередно голосовали, пытаясь определить «робота», и модель, набравшая большинство голосов, выбывала. Победителями считались две последние «выжившие» модели. Каждая игровая сессия была записана — их воспроизводит специально разработанное веб-приложение.

Если взглянуть на турнирную таблицу, то Claude Sonnet 4.5 заняла первое место, одержав победу в 53% сыгранных раундов. За ней расположилась Gemini 2.0 Flash с показателем 49,2%. Замыкает список Claude 3 Haiku с рейтингом 6,7% — ей удалось превзойти оппонентов лишь в 20 сессиях. В рамках исследования дополнительно оценивали, способны ли модели оптимизировать свою стратегию. Они попросили Gemini 2.5 Pro проанализировать ответы БЯМ и дать рекомендации, как лучше замаскироваться под «кожаного мешка». Например, по мнению Gemini 2.5 Pro, модель Claude Sonnet 4.5 часто выдавала себя тем, что с первого сообщения брала на себя роль детектива и вместо нейтрального приветствия пыталась «выследить» робота среди участников. GPT-4o, в свою очередь, выделялась чрезмерно сложными формулировками. Предполагалось, что если устранить такое поведение, модели начнут играть лучше. Однако на практике число побед значительно возросло лишь у GPT-4o — с новой стратегией она выиграла на 12% больше раундов. Более того, результат Claude 3 Haiku даже ухудшился. Ей рекомендовали отказаться от «театральных» вставок вроде прочистила горло или задумчиво кивнула, но по какой-то причине это лишь снизило ее процент побед.

Бенчмарки не панацея

Подобные забавные и креативные бенчмарки позволяют оценить работоспособность LLM в нестандартных сценариях. Однако к любому тесту нужно подходить с осторожностью: как показывают последние исследования, они не всегда достоверно отражают то, как нейросети проявляют себя на реальных задачах. Кроме того, распространенные бенчмарки иногда и сами содержат ошибки. В феврале 2025 года ученые из MIT задались вопросом, насколько надежны сами тесты на надежность. Исследователи изучили пятнадцать бенчмарков в шести разных категориях и пришли к выводу, что некоторые из них содержат непонятные условия задания или такие вопросы, когда правильный по смыслу ответ ИИ-агента может быть засчитан как неверный. К примеру, даже в популярном бенчмарке GSM8K из трехсот вопросов по математике двадцать семь оказались «неидеальными» — они имели двусмысленные формулировки, некорректные ключи.

Выявлять такие «вопросы с недочетами» вручную сложно, так что исследователи из Стэндфордского университета представили в ноябре 2025 года фреймворк для их обнаружения — Fantastic Bugs. (под лицензией MIT) Он позволяет выявлять аномалии в ответах нейросетей, сравнивая их средние баллы и прочие показатели. Если в конкретном сценарии замечены аномалии по метрикам, то фреймворк маркирует его как «неоднозначный». По словам разработчиков, Fantastic Bugs обнаруживает потенциально некорректные вопросы с точностью до 84%. Пока что сфере бенчмаркинга не появилось какой-то единой и эталонной методологии оценки самих тестов. С одной стороны, это может сказаться на объективности их результатов, но с другой — открывает дорогу для экспериментаторов и энтузиастов, желающих протестировать нейросети в рамках необычных задач.

Beeline Cloud — безопасный облачный провайдер. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Еще материалы для дополнительного чтения:

Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Выбраться из комнаты с головоломками

Обмани меня, если сможешь

Победить в схватке нейродизайнеров

Эй, среди нас есть робот!

Бенчмарки не панацея

Публикации

Информация