Комментарии 19
Про сундуки Джемини права. Первый сундук правдивый, золото в третьем.
Да, с сундуками все кроме джереми сели в лужу, включая автора статьи )
Я немного помог, сделав условие более понятным. Наверное, с таким условием справится любая модель.
На самом деле решение можно сильно сократить.
Условия на первом и втором сундуке/коробке взаимно не совместимы. Т.е. оба этих утверждения не могут быть одновременно ложью или истиной. А т.к. истина только одна, то она либо на первом либо на втором. Т.е. истинность третьего сундука/коробки можно уже не проверять: на третьем сундуке/коробке однозначно - ложь. А инверсия 3-го выражения дает сразу ответ.
Но такого решения ни одна нейронка предложить не смогла, они тупо начали перебирать варианты, и даже с таблицей истинности. А для предложенного мной решения, нужно чуточку "сверху" на задачу посмотреть. Т.е. нейронку в черепной коробке подключить.
Удивительно еще и как автор повелась - 3 нейронки из 4-х не могут же ошибиться... Тут прямо вот проблема - человек нейронкам доверяет и сам задачу даже не пытается решить... Ну, а то что вообще все решения не оптимальны - это уже потерянное знание с таким подходом.
ЗЫ вот теперь нейронки найдут этот вариант и может предложат.... т.е. опять копипастом решат.
Если их чуть подтолкнуть...\
Тут схема решения дана. Это не поиск решения а реализация схемы.
Наверное я бы смог согласиться на подсказку в форме:
"попробуй найти решение без перебора всех возможных вариантов"
Но даже это дает подсказку что такое решение скорее всего существует.
Погонял тут gemini-pro-1.5-exp - пока не спросил ее что интересного в первых двух выражениях - не получилось у нее добиться этого решения.
Ни вариант "найди логическое решение короче", ни вариант "не подразумевай что 2 выражение верно" (ее первый ответ был на этом предположении) не сработали. На эти просьбы вообще ошибку выдало (generation error: 429 qouta exceeded).
А вот как попросил обратить внимание на первые два выражения - так ее проперло на инсайты:
Yes, there's a shorter solution without initially assuming the 2nd statement is true.
Key Insight: Statements 1 and 2 are direct opposites. This means one of them must be true and the other must be false. Since only one statement out of all three can be true, we automatically know the 3rd statement is false.
Solution:
Statements 1 and 2 are opposites. One must be true, and the other false.
Since only one statement can be true overall, statement 3 must be false.
If statement 3 is false, the ball IS in box 3.
Therefore, the ball is in box 3.
What's interesting about statements 1 and 2: They create a forced situation where one of them has to be true, leaving no room for the 3rd statement to be the only true one. This immediately helps us deduce the falsity of the 3rd statement and solve the puzzle.
Это автор статьи проверял, насколько мясные мешки доверчивы!
UPD: написано после неправильного прочтения верхнего комментария. Дальше можно не читать
Вы будете смеяться, но золото в Сундуке 3.
Ниже Chaotic Sys уже привел таблицу истинности для шаров с коробками, попробую перевести на сундуки.
Если золото в сундуке 1, то правду говорят 2 сундука:
Сундук 1 - "Золото не в сундуке 2" - верно
Сундук 3 - "Золото не в этом сундуке" - верно.
Сундук 1 исключается
Если золото в сундуке 2, то снова 2 сундука говорят правду:
Сундук 2 - "золото в этом сундуке" - верно
Сундук 3 - "золото не в этом сундуке" - верно
Сундук 2 исключается
Если золото в сундуке 3, то оцениваем утверждения:
Сундук 1 - "Золото не находится в сундуке 2" - верно
Сундук 2 - "Золото в этом сундуке" - ложь
Сундук 3 - "Золото не в этом сундуке" - ложь
Только здесь у нас одно верное утверждение и два ложных.
P.S. Если мы тут запутались в такой простой задачке (я тоже сначала подумала на второй сундук), то мне страшно представить, как в будущем оценивать верность или ошибочность ответов ИИ в более сложных случая
Как оценивать? Самому(-ой) решить - нет?
Собственно пока то что мы называем AI ни разу не умнее того, что у нас в голове. В будущем, возможно, будут решения гораздо умнее людей. Но ведь иногда решение найти труднее чем его истинность проверить. Для такого класса задач мы еще на что-то сгодимся в качестве проверятелей.
По моему питонячий код написали согласно ТЗ именно Gemini с GPT. В задаче четко сформулировано что вернуть, а что вывести. И возвращать то, что просили вывести - по сути нарушение задания.
Причем тут сам автор похоже не до конца поняла задание т.е. слились аж целых 3 нейронки (включая одну не AI).
В случае с сундуком слили 4 нейронки и джереми всех сделала.
Как можно в питоне или в линуксе запустить программу в изолированной среде?
Хочу научить бота решать математические задачи через написание скриптов для их решения, то есть он должен будет не только писать но и запускать их. Пока что это работает но без песочницы, скрипты имеют доступ к файлам и сети а этого быть не должно.
По песочнице пока удалось только использовать eval в питоне с фильтром слов. Бот довольно таки заковыристые выражения может писать. Например искать цифры удовлетворяющие какому то условию:
Calc: [str(i) + str(j) + str(k) + str(l) + str(m) for i in range(9, 0, -1) for j in range(i - 1, 0, -1) for k in range(j - 1, 0, -1) for l in range(k - 1, 0, -1) for m in range(l - 1, 0, -1) if i + j + k + l + m == 26]
Calc result: ['98621', '98531', '98432', '97631', '97541', '97532', '96542', '87641', '87632', '87542', '86543']
Но даже тут есть проблема, такое выражение может выполнятся слишком долго, надо его как то по времени ограничивать.
Так золото в сундуке 3...
В задаче про сундуки только Gemini Pro 1.5 ответил правильно. Смотрите внимательно - ваш вывод неверен, остальные сетки ошиблись.
Попробовал заставить gemini-pro-1.5-exp решить задачку про число, в котором при перестановке последней цифры 2 в начало, получившееся число станет ровно в два раза больше начального.
Пока не подсказал ей рассматривать, что если 2 была на конце, то у удвоенного числа будет 4, а значит оригинальное будет <что-то>42. Но если вторая с конца 4, то в удвоенном она будет 8. Тогда оригинальное будет <что-то>842.
Попросил продолжить идею, так она сначала забыла про переносы и выдала неправильный ответ, но тут же спохватилась и выдала наконец правильный (там вообще-то 17-и значное число в ответе).
Перед этим несколько раз подбиралась к решению ,но каждый раз что-то не то выдавала.
В общем как первоклашке математику объяснять - объяснишь как решать - решит.
не люблю нетипизированные данные - читать неудобно
ну хотя бы названия словарей понятные сделать и стандартные A by B, A by B and C
а не monthly_sales или category_sales_amount
первый пример я бы написал так
sales_by_month_and_category
sales_total_by_month
Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов?