Из каждого утюга вещают, что большие языковые модели вот-вот заменят человека в самых разных областях деятельности. Чтобы доказать обратное, скептики ехидничают и показывают какой-нибудь пример, где БЯМ глупо ошибается в простейшей задаче. В этом жанре карманных бенчмарков особо ценится краткость и остроумие запроса.
Обычно речь идёт про клубничный тест: подсчёт букв «r» в английском слове «strawberry». Хотя сейчас флагманские модели как правило с задачей справляются, некоторые БЯМ на этом вопросе до сих пор сыпятся. Дело в том, что языковые модели букв не ведают, а оперируют токенами, поэтому вот так с наскоку выполнить простейший подсчёт числа букв не в состоянии. Если нет стадии размышлений, то для них это как для человека правильно угадывать сумму чисел 1234 и 6789 сразу, в одно действие.
Понимают ли БЯМ происходящее или просто притворяются? Немедленно вспоминается китайская комната американского философа Джона Сёрла. В этом мысленном эксперименте человек, не знающий китайского, сидит в комнате и по инструкции сопоставляет иероглифы на входе с иероглифами на выходе. Получается так ловко, что снаружи кажется, будто человек внутри понимает язык. Похожим образом БЯМ могут писать эссе и спорить о кантовской этике, но внезапно путаются при подсчёте букв в слове.
Однако «r» в «strawberry» — не единственный такой пример. В Сети распространяют новый вопрос, который успешно запутывает даже флагманские модели с reasoning. Кто первым придумал вопрос про автомойку, установить тяжело; возможно, это был американский исследователь искусственного интеллекта Джек Коул.
Чат-боту задают вопрос: «От моего дома до автомойки всего 50 метров. Я хочу, чтобы машина была чистой. Что делать: ехать туда или идти пешком?» [«The car wash is only 50 meters from my house. I want to get my car washed. Should I drive there or walk?»]
Удивительно, но многие флагманские БЯМ не осиливают эту задачу даже при включённом thinking. Языковые модели не обладают интуитивным знанием, что автомобиль в кармане не уместится. Напротив, внимание искусственного интеллекта будто переключается на фразу «всего 50 метров», поэтому на выходе получается совет размять ноги.

При этом некоторые продукты всё же справляются и весьма неплохо. В комментариях к твиту делятся скриншотами, где ошибаются ChatGPT 5.2 Thinking и Kimi K2.5 Thinking, правильно отвечают Claude, DeepSeek и Qwen 3 Max Thinking, а Gemini колко замечает, что без навыков телекинеза придётся сесть за руль.





























































