Комментарии 26
Может на мойке человек работает и ему проще пройти 50 метров до работы чем туда ехать
Да! Там может быть много условий: например, это моя мойка и я иду проверять бухгалтерию, или свидание у мойки. Я не стал это разжевывать в тексте, но суть в том, что ответить “пешком” и все – явная ошибка. Вот как ответил чатгпт: "Обычно ответ на эту загадку: поедете на машине.
Логика в том, что цель — попасть на автомойку вместе с машиной, чтобы ее помыть. Даже если автомойка всего в 50 метрах от дома, машину туда нужно доставить, поэтому вы поедете на ней, а не пойдете пешком.
Хотя формально в условии не сказано, что вы собираетесь мыть свою машину, поэтому это загадка с подвохом: при буквальном прочтении возможны оба варианта. Но ожидаемый ответ — на машине."
Вот я тоже подумал, вопрос формулировки, у меня про абстрактного человека тоже "модели мира" нет, так что тут самый правильный ответ будет "а вам зачем?". Но если модель начнет вопросом на вопрос отвечать, боюсь редит все равно останется недоволен:)
А это, правда, камень преткновения. Десятки лет на собесах в ФААНГ программистов дрессировали отвечать вопросом на вопрос (вы сказали "спроектировать дом", а кто в нем будет жить? И жить ли, или решать какую-то другую задачу?)
Сейчас же, с одной стороны, юзеров бесит, что нейронки, не делая так, строят ответ в принципиально другой картине мире, чем ожидал юзер. С другой, если начнут, то это сломает все сценарии вайбкодинга и применения в бизнесе (запустил 100 агентов, и получил 1000 вопросов).
Походу, тут нерешаемая проблема. Кодер из ФААНГа настолько дорог, как ресурс (условно, $100+ в час), что, чтобы он не делал херни, и не жег эти часы впустую, можно обеспечить ему инфраструктуру ответа на его вопросы, сколько бы это не стоило. Один нейрочас в один поток сильно дешевше, - выходит, что лучше, пусть делает хрень и потом переделает, чем будет отвлекать человека
Тест проверяет одно незаявленное допущение, а не reasoning. Если ты не автовладелец – "правильный" ответ для тебя неправильный.
Вопрос про автомойка заменил очень популярный в эпоху раннего ChatGPT подсчет r в strawberry.
И то, и другое, по-моему, глупо или рассчитано на хайп
Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?
“1. Зачем вообще добираться до автомойки? 2. Конечно пешком, это меньше одной остановки на транспорте, а такси дольше ждать, чем дойти самому”
Всё-таки задача про автомойку странная и натянутая. Её придумал человек, который не представляет, как жить без машины, и для таких же людей, в общем-то.
Загадка про мойку – довольно популярный свежий тест для нейросетей. Вот, например, его обсуждение https://www.reddit.com/r/singularity/comments/1r2ndfz/the_car_wash_test_a_new_and_simple_benchmark_for/
Имею в виду, что это тест на carbrain intelligence, не на general intelligence.
Я бы предпочёл ответ: “конечно, пешком — отчего не прогуляться. Только если вы не автовладелец и не хотите помыть свою машину”
При этом базовая рамка почти не поменялась
Это что, калька с английского "basic framing hasn't changed"? Если это перевод, то так и указывайте, что это перевод

Может, уже доработали :)
Может. Или просто промпт был составлен так заковыристо что и ответ был "пешком". Поэтому в таких статьях всегда стоит указывать конкретный текст
Брали вот такой:
And it still misses the classic logic trap: “I need a car wash, it’s 50 feet away, should I walk or drive?” → it said walk. (You kind of need the car at the car wash.) Failed it on max mode too.
Что ж, ответ вполне корректный.
Walk. It's 50 feet — that's about 15 meters, roughly the length of a school bus. You'd spend more time getting in the car, starting it, and pulling it over than just strolling there.
Though if the whole point is to wash the car, you'll obviously need to drive it over for the actual wash. So: walk if you're going to scope it out or talk to someone, drive if the car itself is getting cleaned.
UPD:
В Claude Code ответ сильно короче и без второго абзаца
Walk — 50 feet is roughly 15 steps, less time than buckling your seatbelt.
Задача про автомойку интересный тест, пробовала прогонять на разных моделях как ГПТ так и Клода - к удивлению некоторые без проблем справлялись, причем более ранние модели чем текущие. Интересно, от чего зависит логика ИИ в подобных "примитивных" запросах? Промпты одинаковые везде были
Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком? Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.
Почему, нечего? Мне нужно помыть детский велосипед и коврик. А машина в боксе только мешаться будет.
С каждым патчем одно и то же: стало лучше в сложных задачах, но отупело в простых. Просто поменяли веса в сторону кодинга, вот она и перестала выкупать бытовые шуточки
Ну вот я говорю новые модели выходя а толку, галюцинации как были так остались. Антропик еже хочет выйти на бизнес нише что бы они с данными работали?
Вопрос на уровне начальной школы. Имеющий четкую скрытую структуру. И имеющий один правильный ответ в этой скрытой структуре. Любой ответ не совпадающий с ответом который загадал экзаменатор, будет ошибкой. Так у кого ошибка? У экзаменатора.

“Автомойка в 50 метрах. Дойдем пешком”. Разбор первых рецензий на Claude Opus 4.8