DonnaGвчера в 07:48

“Автомойка в 50 метрах. Дойдем пешком”. Разбор первых рецензий на Claude Opus 4.8

Простой

4 мин

12K

Искусственный интеллектНаучно-популярноеБудущее здесьСофт

Обзор

+11

Комментарии 26

denja244 вчера в 07:53

Может на мойке человек работает и ему проще пройти 50 метров до работы чем туда ехать

DonnaG вчера в 08:00

Да! Там может быть много условий: например, это моя мойка и я иду проверять бухгалтерию, или свидание у мойки. Я не стал это разжевывать в тексте, но суть в том, что ответить “пешком” и все – явная ошибка. Вот как ответил чатгпт: "Обычно ответ на эту загадку: поедете на машине.

Логика в том, что цель — попасть на автомойку вместе с машиной, чтобы ее помыть. Даже если автомойка всего в 50 метрах от дома, машину туда нужно доставить, поэтому вы поедете на ней, а не пойдете пешком.

Хотя формально в условии не сказано, что вы собираетесь мыть свою машину, поэтому это загадка с подвохом: при буквальном прочтении возможны оба варианта. Но ожидаемый ответ — на машине."

unclejocker вчера в 08:01

Вот я тоже подумал, вопрос формулировки, у меня про абстрактного человека тоже "модели мира" нет, так что тут самый правильный ответ будет "а вам зачем?". Но если модель начнет вопросом на вопрос отвечать, боюсь редит все равно останется недоволен:)

akakoychenko вчера в 08:51

А это, правда, камень преткновения. Десятки лет на собесах в ФААНГ программистов дрессировали отвечать вопросом на вопрос (вы сказали "спроектировать дом", а кто в нем будет жить? И жить ли, или решать какую-то другую задачу?)

Сейчас же, с одной стороны, юзеров бесит, что нейронки, не делая так, строят ответ в принципиально другой картине мире, чем ожидал юзер. С другой, если начнут, то это сломает все сценарии вайбкодинга и применения в бизнесе (запустил 100 агентов, и получил 1000 вопросов).

Походу, тут нерешаемая проблема. Кодер из ФААНГа настолько дорог, как ресурс (условно, $100+ в час), что, чтобы он не делал херни, и не жег эти часы впустую, можно обеспечить ему инфраструктуру ответа на его вопросы, сколько бы это не стоило. Один нейрочас в один поток сильно дешевше, - выходит, что лучше, пусть делает хрень и потом переделает, чем будет отвлекать человека

Nikollor48 вчера в 15:14

ФААНГ дрессировал задавать вопросы, чтобы проверить адекватность джуна. А нейронке адекватность не нужна, ей нужен четкий системный промпт

Granulex вчера в 10:11

Тест проверяет одно незаявленное допущение, а не reasoning. Если ты не автовладелец – "правильный" ответ для тебя неправильный.

Gonchar_POTT 11 часов назад

Вопрос про автомойка заменил очень популярный в эпоху раннего ChatGPT подсчет r в strawberry.

И то, и другое, по-моему, глупо или рассчитано на хайп

eps вчера в 07:59

Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?

“1. Зачем вообще добираться до автомойки? 2. Конечно пешком, это меньше одной остановки на транспорте, а такси дольше ждать, чем дойти самому”

Всё-таки задача про автомойку странная и натянутая. Её придумал человек, который не представляет, как жить без машины, и для таких же людей, в общем-то.

DonnaG вчера в 08:07

Загадка про мойку – довольно популярный свежий тест для нейросетей. Вот, например, его обсуждение https://www.reddit.com/r/singularity/comments/1r2ndfz/the_car_wash_test_a_new_and_simple_benchmark_for/

eps вчера в 08:17

Имею в виду, что это тест на carbrain intelligence, не на general intelligence.

Я бы предпочёл ответ: “конечно, пешком — отчего не прогуляться. Только если вы не автовладелец и не хотите помыть свою машину”

Soorin вчера в 09:52

В задаче не было ничего про "помыть машину" - там только "добраться до автомойки". "Если" - это додумывание за задающего вопрос.

spirit1984 вчера в 08:06

При этом базовая рамка почти не поменялась

Это что, калька с английского "basic framing hasn't changed"? Если это перевод, то так и указывайте, что это перевод

DonnaG вчера в 08:14

Спасибо за внимательность. Это не перевод, статью собирал на основе нескольких источников, и здесь действительно получилась неудачная формулировка с моей стороны. Исправил текст, спасибо, что обратили внимание.

Djeux вчера в 08:13

DonnaG вчера в 08:27

Может, уже доработали :)

Djeux вчера в 08:37

Может. Или просто промпт был составлен так заковыристо что и ответ был "пешком". Поэтому в таких статьях всегда стоит указывать конкретный текст

DonnaG вчера в 09:04

Брали вот такой:

And it still misses the classic logic trap: “I need a car wash, it’s 50 feet away, should I walk or drive?” → it said walk. (You kind of need the car at the car wash.) Failed it on max mode too.

Djeux вчера в 09:09

Что ж, ответ вполне корректный.

Walk. It's 50 feet — that's about 15 meters, roughly the length of a school bus. You'd spend more time getting in the car, starting it, and pulling it over than just strolling there.
Though if the whole point is to wash the car, you'll obviously need to drive it over for the actual wash. So: walk if you're going to scope it out or talk to someone, drive if the car itself is getting cleaned.

UPD:

В Claude Code ответ сильно короче и без второго абзаца

Walk — 50 feet is roughly 15 steps, less time than buckling your seatbelt.

Nikollor48 вчера в 15:18

В Claude Code модель ответила коротко, потому что экономила ваши деньги за токены)

Anna_Smirnova323 вчера в 08:30

Задача про автомойку интересный тест, пробовала прогонять на разных моделях как ГПТ так и Клода - к удивлению некоторые без проблем справлялись, причем более ранние модели чем текущие. Интересно, от чего зависит логика ИИ в подобных "примитивных" запросах? Промпты одинаковые везде были

DonnaG вчера в 08:31

Может какие-то из моделей обучают на похожих логических задачках, а какие-то нет...

Nikollor48 вчера в 15:21

Более ранние модели могли справляться лучше просто потому, что их обучали на других датасетах, где было больше бытовых историй и меньше кода

RulenBagdasis вчера в 14:56

Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком? Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

Почему, нечего? Мне нужно помыть детский велосипед и коврик. А машина в боксе только мешаться будет.

Nikollor48 вчера в 15:09

С каждым патчем одно и то же: стало лучше в сложных задачах, но отупело в простых. Просто поменяли веса в сторону кодинга, вот она и перестала выкупать бытовые шуточки

Leadmagneet вчера в 15:51

Ну вот я говорю новые модели выходя а толку, галюцинации как были так остались. Антропик еже хочет выйти на бизнес нише что бы они с данными работали?

ru4pae 12 часов назад

Вопрос на уровне начальной школы. Имеющий четкую скрытую структуру. И имеющий один правильный ответ в этой скрытой структуре. Любой ответ не совпадающий с ответом который загадал экзаменатор, будет ошибкой. Так у кого ошибка? У экзаменатора.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий