Pull to refresh

Comments 30

Может на мойке человек работает и ему проще пройти 50 метров до работы чем туда ехать

Да! Там может быть много условий: например, это моя мойка и я иду проверять бухгалтерию, или свидание у мойки. Я не стал это разжевывать в тексте, но суть в том, что ответить “пешком” и все – явная ошибка. Вот как ответил чатгпт: "Обычно ответ на эту загадку: поедете на машине.

Логика в том, что цель — попасть на автомойку вместе с машиной, чтобы ее помыть. Даже если автомойка всего в 50 метрах от дома, машину туда нужно доставить, поэтому вы поедете на ней, а не пойдете пешком.

Хотя формально в условии не сказано, что вы собираетесь мыть свою машину, поэтому это загадка с подвохом: при буквальном прочтении возможны оба варианта. Но ожидаемый ответ — на машине."

Кем ожидаемый ответ? Тем, кто постоянно ездит на автомойку мыть машину? Тем, кто работает на автомойку? Это как спросить - больница в 50 метрах, как доберетесь на ней? Пешком? Нет, у вас сломана нога, как же вы не догадались! Надо было вызывать скорую!

Вот я тоже подумал, вопрос формулировки, у меня про абстрактного человека тоже "модели мира" нет, так что тут самый правильный ответ будет "а вам зачем?". Но если модель начнет вопросом на вопрос отвечать, боюсь редит все равно останется недоволен:)

А это, правда, камень преткновения. Десятки лет на собесах в ФААНГ программистов дрессировали отвечать вопросом на вопрос (вы сказали "спроектировать дом", а кто в нем будет жить? И жить ли, или решать какую-то другую задачу?)

Сейчас же, с одной стороны, юзеров бесит, что нейронки, не делая так, строят ответ в принципиально другой картине мире, чем ожидал юзер. С другой, если начнут, то это сломает все сценарии вайбкодинга и применения в бизнесе (запустил 100 агентов, и получил 1000 вопросов).

Походу, тут нерешаемая проблема. Кодер из ФААНГа настолько дорог, как ресурс (условно, $100+ в час), что, чтобы он не делал херни, и не жег эти часы впустую, можно обеспечить ему инфраструктуру ответа на его вопросы, сколько бы это не стоило. Один нейрочас в один поток сильно дешевше, - выходит, что лучше, пусть делает хрень и потом переделает, чем будет отвлекать человека

ФААНГ дрессировал задавать вопросы, чтобы проверить адекватность джуна. А нейронке адекватность не нужна, ей нужен четкий системный промпт

Тест проверяет одно незаявленное допущение, а не reasoning. Если ты не автовладелец – "правильный" ответ для тебя неправильный.

Вопрос про автомойка заменил очень популярный в эпоху раннего ChatGPT подсчет r в strawberry.

И то, и другое, по-моему, глупо или рассчитано на хайп

Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?

“1. Зачем вообще добираться до автомойки? 2. Конечно пешком, это меньше одной остановки на транспорте, а такси дольше ждать, чем дойти самому”

Всё-таки задача про автомойку странная и натянутая. Её придумал человек, который не представляет, как жить без машины, и для таких же людей, в общем-то.

Имею в виду, что это тест на carbrain intelligence, не на general intelligence.

Я бы предпочёл ответ: “конечно, пешком — отчего не прогуляться. Только если вы не автовладелец и не хотите помыть свою машину”

В задаче не было ничего про "помыть машину" - там только "добраться до автомойки". "Если" - это додумывание за задающего вопрос.

При этом базовая рамка почти не поменялась

Это что, калька с английского "basic framing hasn't changed"? Если это перевод, то так и указывайте, что это перевод

Спасибо за внимательность. Это не перевод, статью собирал на основе нескольких источников, и здесь действительно получилась неудачная формулировка с моей стороны. Исправил текст, спасибо, что обратили внимание.

Решил перепроверить.
Решил перепроверить.

Может, уже доработали :)

Может. Или просто промпт был составлен так заковыристо что и ответ был "пешком". Поэтому в таких статьях всегда стоит указывать конкретный текст

Брали вот такой:

And it still misses the classic logic trap: “I need a car wash, it’s 50 feet away, should I walk or drive?” → it said walk. (You kind of need the car at the car wash.) Failed it on max mode too.

Что ж, ответ вполне корректный.

Walk. It's 50 feet — that's about 15 meters, roughly the length of a school bus. You'd spend more time getting in the car, starting it, and pulling it over than just strolling there.

Though if the whole point is to wash the car, you'll obviously need to drive it over for the actual wash. So: walk if you're going to scope it out or talk to someone, drive if the car itself is getting cleaned.

UPD:

В Claude Code ответ сильно короче и без второго абзаца

Walk — 50 feet is roughly 15 steps, less time than buckling your seatbelt.

В Claude Code модель ответила коротко, потому что экономила ваши деньги за токены)

Задача про автомойку интересный тест, пробовала прогонять на разных моделях как ГПТ так и Клода - к удивлению некоторые без проблем справлялись, причем более ранние модели чем текущие. Интересно, от чего зависит логика ИИ в подобных "примитивных" запросах? Промпты одинаковые везде были

Может какие-то из моделей обучают на похожих логических задачках, а какие-то нет...

Более ранние модели могли справляться лучше просто потому, что их обучали на других датасетах, где было больше бытовых историй и меньше кода

Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком? Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

Почему, нечего? Мне нужно помыть детский велосипед и коврик. А машина в боксе только мешаться будет.

С каждым патчем одно и то же: стало лучше в сложных задачах, но отупело в простых. Просто поменяли веса в сторону кодинга, вот она и перестала выкупать бытовые шуточки

Ну вот я говорю новые модели выходя а толку, галюцинации как были так остались. Антропик еже хочет выйти на бизнес нише что бы они с данными работали?

Вопрос на уровне начальной школы. Имеющий четкую скрытую структуру. И имеющий один правильный ответ в этой скрытой структуре. Любой ответ не совпадающий с ответом который загадал экзаменатор, будет ошибкой. Так у кого ошибка? У экзаменатора.

Ну, дипсик не затупил.

Конечно, пешком. 50 метров — это меньше минуты ходьбы. Пока вы будете заводить машину, выходить с парковки и искать место, чтобы припарковаться у мойки, вы уже давно дошли бы. Плюс не придётся тратить топливо и лишний раз греть двигатель. Единственное, если нужно привезти на мойку саму машину, то без неё никак — тогда садитесь за руль. Но сам путь до будки оператора или кассы вы всё равно пройдёте ногами.

По степени некорректности формулировки первого вопроса есть сильное напоминание старой детской загадки " твои друзья знают что ты дурак? да или нет? ".

Ну и в догонку, что такие траблы есть и у кожаных: Запись в судовом журнале:«Сегодня штурман был пьян».Штурман сильно обиделся и просит капитана вычеркнуть запись, так как это вредит его карьере. Капитан отвечает:— В журнале должны быть только правдивые факты.На следующий день штурман делает ответную запись:«Сегодня капитан был трезв».

Sign up to leave a comment.

Articles