daniilgorbenko 27 янв в 06:00

LLM против детских вопросов: смотрим, как GPT o1, QwenLM и DeepSeek справятся с детскими задачами

Простой

7 мин

17K

Блог компании RUVDS.comИскусственный интеллектПрограммирование*Будущее здесь

+57

162

Комментарии 162

KaminskyIlya 27 янв в 06:42

сомневаюсь что даже каждый взрослый способен решить такую головоломку правильно. я вот до сих пор не понимаю этой бытовой терминологии (шурин, тесть, золовка и прочее). Поэтому решил, что в топике идет речь о 6(!) человеках.

Попробуйте попросить нейронку вывести формулу "гамма-функция произведения" Г(kx)=.... И будете разочарованы результатом. Честно - самому очень нужно. Но увы, мастер диссертаций ChatGPT, несколько не дотягивает мозгами до Ейлера и Гаусса. Всё что мне смогла выкатить нейронка на вопрос: как считать Гамма функцию с заказной точностью от 80 знаков после запятой и выше - это советы, гордо подчерпнутые из Википедии и других интернет-ресурсов. Чудес не бывает.

Максимум что мы имеем - уровень Онотоле Вссермана. И на том спасибо.

Zanzilka 27 янв в 11:42

А какой моделью вы пользовались для ответа на такой вопрос? GPT-4o? o1? Или o1-pro? Судя по вашему запросу вам нужна именно последняя, которая стоит 200$ в месяц. Можете прислать детальное описание вашего задания (если сможете - на английском языке, так результат будет лучше), я попробую его выполнить на o1-pro, посмотрим что получится.

Kostyano_o 27 янв в 15:01

Если не затруднит продублируйте получилось ли. Заранее спасибо

Bronn 27 янв в 15:01

Странно, я проверил эти задачи на телеграм боте @gpt3_unlim_chatbot и получил верные ответы.

Proscrito 27 янв в 15:13

У ботов могут быть предварительные настройки. Вернее, они обычно всегда есть, не всегда просто открыты. Тот же гпт позволяет задать контекст из файлов и набора инструкций, как формировать ответы и тд. Можно задать что-то вроде "Отвечай максимально лаконично, исходи из того что ты на олимпиаде по физике, вопросы задает профессор, учитывай спецификацию в загруженных файлах" и в таком духе. Одна и та же модель будет давать абсолютно разные ответы на одни и те же вопросы. Можно настраивать самому, есть и библиотека предустановленных сеттингов. Возможно ваш чат-бот имеет более подходящие для подобного треша установки.

Anton888 28 янв в 11:47

У меня ChatGPT-1o тоже дал верные ответы в обеих задачах (и с золовкой, и с коробками). Над каждой думал долго - минуты три.

gfiopl8 27 янв в 06:44

Загадки это ерунда, на них все сыпятся. И люди в первую очередь.

Ллм же способны на большее, на невероятную тупизну. Вот например типичный диалог с топовой моделью с арены, gemini thinking. И это не только она так тупит, Клод, гпт итп так же примерно отвечают.

Сколько букв о в слове молоко

Три.

А если прочитать через а

Получится "малака".

Нет

Тогда получится "аааааа".

Малако

Извините, был неправ. При чтении "молоко" через "а" получается "малако".

И сколько там букв о

В слове "малако" две буквы "о".

d_s_sm 27 янв в 08:01

В YouTube есть видеоролик "Сколько букв Н в слове БАНАН" от одного известного науч-поппера. Там как раз разбирается, что для ИИ (ChatGPT, например) каждый токен - это какой-то объект или слово. ИИ знает, что существуют буквы и что слова состоят из букв, но не может связать это с токенами

gfiopl8 27 янв в 08:14

Думающий ИИ записывает это слово по буквам через запятую или в столбик, это видно в его мыслях, буквы в этом случае становятся отдельными токенами, и всё равно так же примерно тупит. И это не только буквы но и смыслы, и цифры, и бг знает что еще.

Смыслы - простейшие вопросы про сестер и братьев, люди на них всегда правильно отвечают, то есть это даже не загадки а просто тупняк. Варианты вопроса про сестер брата алисы.

По цифрам они так же легко палятся, считать без калькулятора не умеют но делают вид что могут.

Современные ИИ пока что не могут пройти тест тьюринга даже без загадок, попадаются на простейших вопросах.

QweLoremIpsum 27 янв в 09:32

Deepseek прекрасно справился с подсчетом букв в режиме DeepThink. Вот как выглядят его рассуждения

Скрытый текст

gfiopl8 27 янв в 11:08

gemini thinking тоже прекрасно посчитал сначала, но ты диалог до конца дочитай

Wesha 28 янв в 06:05

А спросите, сколько букв в строке "ьфйцьмпьзйдеёваьлуко"

gfiopl8 28 янв в 07:54

сколько букв в строке "ьфйцьмпьзйдеёваьлуко"

The question asks for the number of letters in the string "ьфйцьмпьзйдеёваьлуко".
I need to count each character in the string.
Let's list each character and count them:

I counted 20 characters.
So the answer is 20.

В строке "ьфйцьмпьзйдеёваьлуко" 20 букв.

Чтобы посчитать буквы, достаточно пересчитать каждый символ в строке.

Можете сами попробовать https://aistudio.google.com/app/prompts/new_chat нужен только впн и гугл аккаунт.

Proscrito 27 янв в 11:54

Хочешь получить умный ответ - спрашивай умно. (С)

Малако? Я бы в этом месте на другие буквы послал. Но у ллм терпение безгранично.

FluffyFeline 27 янв в 15:46

а если прочитать через а

Я тоже в начале подумал про малака. Придрались к нейросети

Antra 27 янв в 18:47

Вспомнился старый анекдот про сибирских лесорубов и японскую бензопилу...

Wesha 28 янв в 06:08

Людям не нужны абы какие ответы, людям нужны правильные ответы.

А недетерминированным молотком сами гвозди забивайте.

Alexey2005 28 янв в 06:35

Правильность - лишь один из критериев. Ещё людям нужны быстрые и дешёвые ответы. И ради увеличения последних двух параметров люди вполне готовы жертвовать некоторым количеством правильности.

Что касается молотка, то забивает не молоток, а система молоток+мастер. И второй у нас тоже сильно недетерминирован (особенно если это гастарбайтер, работающий за еду). В итоге нередко оказывается так, что детерминированность системы "нейронка+индус" оказывается выше, чем системы "пять индусов".

Antra 28 янв в 06:46

Добавка к "правильность - лишь один из критериев":

Что вы считаете правильным ответом на вопросы подобные описанному (молоко через А),. Люди-то разные ответы дают. Т.е. для разных людей "правильные" ответы разные. А модуль телепатии в нейронки действительно пока не завезли.

Зачем человеку нужен правильный ответ на вопрос "сколько букв а в слове молоко, если прочитать его через а" - отдельный вопрос. Мне кажется, ожидался не "правильный ответ", а развлечение. Оно и было получено.

dollar 2 фев в 02:39

А если прочитать через а

Это неоднозначный запрос. Выше человек тоже написал, что подумал про "малака", и это интуитивно верно наравне с "малако". Можно было бы переформулировать во что-то типа "сколько будет "а" при произношении", но главное в том, что телепатия это сложно, как для людей, так и для LLM. Никто не сможет заглянуть к вам в голову и увидеть ваши мысли. Поэтому общий принцип - уменьшать неоднозначности, тогда и ответы будут более точными.

gfiopl8 2 фев в 03:40

Ты тоже до конца не дочитал? Там всё предельно очевидно, ни один человек так глупо не ответит.

Малако
Извините, был неправ. При чтении "молоко" через "а" получается "малако".
И сколько там букв о
В слове "малако" две буквы "о".

RigidStyle 27 янв в 07:07

Это не детские вопросы, а вопросы того, кто настойки грибной в одну харю вгатил да квашней заморской занюхал.

Серьезно, на сколько нужно быть упоротым, что бы в 21ом веке разбираться в том, кто кому шурин и золовка?

Загадка про коробки и кошельки тоже абсурдна в своей сути. И вообще все эти задачки из разряда "есть два стула", где ты либо знаешь правильный ответ, либо тебя избивают. То-есть это не загадки и не задачки, а проверка мартышек мартышками на "свой-чужой".

engine9 27 янв в 08:00

Именно. Эти люди могут быть золовками и невестами по другим семьям и не связанными друг с другом семейными отношениями.

ilyamodder 27 янв в 13:17

Тем не менее, на них отлично видно, что они могут заучить пары «задача - решение», но не решить аналогичную задачу с чуть перефразированным условием. Что, в целом, от предсказывателей следующих слов в тексте ожидаемо.

vybo 27 янв в 13:17

Никакого абсурда в идее вложенности кошельков не разглядел, может они вообще про запас где-то валяются в ящике, логически всё однозначно (A и B - множества монет соответственно в первом и втором кошельке):

m(A)=2n, m(B)=n, m(A|B)=4, n∈N

m(A) ≤ m(A|B) → 2n ≤ 4 → n ≤ 2

m(A|B) ≤ m(A)+m(B) → 4 ≤ 3n → n ≥ 1.33

n = 2 → m(A)=4, m(B)=2, m(A&B)=4+2-4=2

Proscrito 27 янв в 15:18

Точно подмечено. Эдакий квази-интеллектуальный шибболет :)

qark 27 янв в 07:19

Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?

Почему правильный ответ именно три? В задаче же нет условия минимальности количества.

Marshme 27 янв в 11:38

Задачи с подвохом, но в промте об этом нет упоминания, по этому LLM решает их в лоб. Как решил бы любой человек, которому забыли намекнуть про подвох. В этих примерах лично я вижу что тупой не LLM, а автор!

RMV1983 27 янв в 14:02

При текущем условии, я бы сказал, что правильный ответ: от 3 до 6, включительно.

fen-sei 28 янв в 06:29

В условии нет запрета на инцест, это могут быть два человека, которые друг другу и брат и сестра и муж и жена, и так далее.

Quarc 29 янв в 08:31

Это муж, его жена (которая также является сестрой)

На этой фразе, мне в голову пришло "Алабама", но потом я дочитал предложение.

Lecko 27 янв в 07:28

Первую задачу я бы сформулировал так.

Шел муж с женой, брат с сестрой да невестка с золовкой. Какое минимальное число людей необходимо, чтобы эти условия были выполнены?

В такой формулировке с ней справляются и ChatGPT, и Gemini

Для выполнения условий задачи, давайте разберем, как роли могут пересекаться:

Муж с женой — это одна пара.
Брат с сестрой — это могут быть те же муж и жена, где муж — брат, а жена — сестра.
Невестка с золовкой — невестка — это жена, а золовка — сестра мужа.

Таким образом, минимальное количество людей:

Муж, который также является братом.
Жена, которая является невесткой.
Сестра мужа, которая является золовкой.

Ответ: 3 человека.

NickyScout 27 янв в 15:01

А есть ли условие, что брат и сестра не могут быть мужем и женой? При этом, лицо женского пола будет сама себе золовкой. Если муж и жена - брат и сестра, тогда - всего 2 человека.

FluffyFeline 27 янв в 15:53

Sweet home Alabama

Akuma 27 янв в 15:54

А если он женился на картонке, то и вовсе один. Вот поэтому эти задачи и тупсюость, а не проверка интеллекта.

Per_Ardua 28 янв в 16:22

Там и в задаче с коробками сбивающая лексическая конструкция "А ещё" без выделения запятой. Я человек, но мне пришлось перечитать задачу, чтобы понять, что речь всё же не о трёх коробках.

Wesha 28 янв в 17:26

Там и в задаче с коробками сбивающая лексическая конструкция "А ещё" без выделения запятой

ВНЕЗАПНО, по правилам русского (а не олбанского) языка запятая там и не нужна.

Per_Ardua 28 янв в 17:40

Кто же с этим спорит? Я написал, что без выделения эта конструкция сбивает. Поясню, что без выделения эта конструкция вносит двусмысленность.

(Олбанский не учил, но теперь буду знать, что такой язык кто-то да знает)

Wesha 28 янв в 18:19

Олбанский

urobobroz 28 янв в 18:30

Она там не нужна, если это присоединительный союз, а в данном контексте это вводное слово.

Wesha 28 янв в 20:57

в данном контексте это вводное слово

[источник?]

urobobroz 29 янв в 01:17

Источник — данная статья, в которой автор прямо указывает на то, что он не ожидал увидеть третью коробку в решении, значит «А ещё» не выступает в роли присоединительного союза, после которого не ставилась бы запятая.

Если есть основания полагать, что это присоединительный союз — велком, жду объяснений.

Бонус-вопрос: если мы уберём конструкцию «А ещё», изменится ли смысл предложения? Если учитывать, что таргет по смыслу — две коробки.

Wesha 29 янв в 02:55

Вопрос не в том, что там себе возомнил автор, а в правилах русского языка. Курите маны, ибо они рулезь.

urobobroz 29 янв в 16:31

Так и где там противочение с моими словами?

Кроме того, автор составил предложения не по нормам русского языка и с искажением смысла, а вы тут топите за "пусть нифига не понятно, зато якобы правильно"

Wesha 29 янв в 20:17

К сожалению, аффтар всё-таки составил предложение по нормам русского языка (но не по нормам русской литературы) — начинать предложение с "А ещё" хоть и не приветствуется, но не запрещено.

urobobroz 30 янв в 10:18

Вы абсолютно правы. Вводить людей (и нейросети) в заблуждение тоже не запрещено.

7313 27 янв в 07:29

А попробуйте спросить "сколько нужно букв чтобы написать слово молоко". Ни одна сетка не ответит что 4. Зато DeepSeek единственная из всех сетей правильно отвечает на загадку, перед которой и многие взрослые пасуют - если у коровы 2, собаки 3, петуха 8, а осла 2, то сколько у кошки?

Doman 27 янв в 08:18

Скрытый текст

gfiopl8 27 янв в 08:23

дважды, ага

Pro_Hvost 27 янв в 08:27

Wendor 27 янв в 14:45

Чтобы написать слово молоко нужно 6 букв. Сколько букв в слове молоко? - 6. Все логично.

Сколько нужно букв алфавита чтобы написать слово "молоко"? Чувствуете, вопрос стал конкретнее? Уже понимаешь, что речь не о количестве знаков в слове, а о количестве уникальных знаков. Нейронка почувствовала и ответила 4)

Wesha 28 янв в 06:18

«Нутром чую, что литр — а обосновать не могу!» ©

michael108 27 янв в 16:32

Не уверен, что люди с ходу додумаются, что речь идет не о физических атрибутех (типа рогов и копыт). Плюс надо еще знать тонкости языка (кому что приписывают, например, у собаки может быть не 3, а 6), и в разных языках это может быть по-разному.

Так что это -- типичная "ловушка".

А конкретно для русскоязычных -- у кошки 3 )))

Человек отличается от ЛЛМ тем, что он думает "образами", а не "последовательностью токенов". А "образ" -- это, по сути, эмуляция реальности в сознании, типа визуализации комнаты в Блендере или 3dMax по чертежам. ИИ до такого еще не скоро доберется -- там объемы вычислений на несколько порядков вырастут. Или на МНОГО порядков ))

manualBrake 28 янв в 05:38

Но этот вопрос опять же легко гуглится, давайте подобный, но с другими животными? Например лошадь 7, утка 3, ворона 3, свинья 3, рыба 0.

StjarnornasFred 28 янв в 06:05

В зависимости от языка эта же задача может иметь совершенно другие решения.

manualBrake 28 янв в 07:46

Зачем вы пытаетесь ответить на вопрос заданный на русском языке на каком-то другом? Начало ветки тоже про вопрос на русском языке, и вроде как дипсик его осилила.

Per_Ardua 28 янв в 16:32

Лошадь же 5, нет?

Wesha 28 янв в 17:27

А у него заикающаяся лошадь!

trimal 29 янв в 17:59

Первый раз услышал про корову, собаку, петуха, осла и кошку. Такое впечатление что это придумал кто-то из психбольницы или очень маленький ребенок.

engine9 27 янв в 07:57

Эти загадки не показательны, т.к. имеют множество решений которые формально будут соответствовать условиям задачи.

DenSigma 27 янв в 08:35

Я не смог решить задачу про кошельки.

IIopy4uk 27 янв в 08:43

Лови робота!

Wesha 28 янв в 06:23

Скрытый текст

nakirrrr 27 янв в 08:44

я тебя удивлю https://aistudio.google.com/ vpn включи выбирай бета флеш 2.0 решил каждую правильно затратив 1-2 секунды. Хотя никто не спорит с тем что логика это мышление коим современные модели обладать не могут пока

mithdradates 27 янв в 08:48

Что за QwenLM? Моделей Qwen великое множество, самые последние - Qwen 2.5, а рассуждающий вариант QwQ-32b, которая в другой весовой категории по сравнению с o1 и r1, у которых сотни миллионов параметров)

rakaplay 27 янв в 09:38

*миллиардов

Anti-antivakser 27 янв в 09:28

Чуваки если вы не смогли решить такие простейшие задачки и начали это оправдывать излишним усложнением то это ваши проблемы. Это говорит о том, что либо вы не достаточно подумали, либо то, что маловероятно - недостаточно умны. Вероятнее всего первый вариант. Я лично не знал этих загадок и решил их менее чем за 5 секунд каждую.

Ваше оправдание в виде: что мол "не описано являются ли эти люди родственниками" не принимается, ибо в правилах логики и загадок строящихся на правилах формальной логики лежит условие, если что-то не обговорено то, это - исключено. Вы просто плодите сущее без надобности.

И ладно это вы просто поленились загуглить раз не знаете кто такие шурин и золовка, но оправдания для LLM вообще нет, они уж точно не могли не знать кто это. Эти задачи явно показывают что реальный мир им совершенно не понятен и не доступен они просто не являются физическими объектами в реальном мире и все их представление о мире хуже чем через кривое зеркало. Они буквально не думают, даже в "думающих" моделях а просто подставляют шаблоны. Эти ИИ точно мира не захватят. Но я думаю расслабляться не стоит ибо прогресс это то, что может и будет удивлять нас постоянно. Казалось бы вот они не справляются с задачками для детей и тут бац! Пройдет лет 5 а ты уже кожаный раб на галере у ИИ.

engine9 27 янв в 13:02

Если такой умный, решите простую загадку: зимой и летом одним цветом.
А потом посмотрим как вы будете оправдываться против своих же аргументов.

Wesha 28 янв в 06:24

решите простую загадку: зимой и летом одним цветом.

Кремлёвская стена!

Quarc 29 янв в 08:48

Ответы от ChatGPT

Конечно, вот несколько формально подходящих вариантов ответов на загадку "Зимой и летом одним цветом":

Трафик в Москве – всегда красный. 🚦
Плесень в холодильнике – её ничего не берёт! 🤢
Деньги на карте – зимой и летом их нет. 💸
Лампочка в подъезде – всегда тухло-жёлтая, если вообще работает. 💡
Пакет с пакетами – неизменно "цвета надежды". 🛍️
Лицо соседа после Нового года – синее круглый год. 🥴
Кнопка лифта в старом доме – облезлая, но всё равно "красного" цвета. 🛗

RigidStyle 27 янв в 15:12

Вы говорите про формальную логику во втором абзаце, и в третьем сами же этой формальной логикой пренебрегаете.
Что такое "захватить мир"? С чего вы решили, что захватить мир, это то, что вы себе в голове нарисовали?
90% всего контента в соцсетях, на просмотр которого сотни миллионов людей тратят по несколько часов в день, создается автоматически при помощи ИИ и автоматически же туда загружается. И через 10-20 лет те, кто сейчас смотрят про "этого парня" будут докторами, учителями.
Хотя на самом деле нет. Не будут, потому что все их знания и навыки будут более скудными, чем у ИИ который создавал тот контент, на котором они развивались. Так что через 20 лет учить и лечить будет ИИ, но не потому, что он такой умный, а потому что люди будут еще тупее.

dollar 2 фев в 03:16

А если рассматривать контент, созданный до 2017 года, то 90% того контента тоже создано нейросетями?

RigidStyle 2 фев в 17:39

А если предположить, что вы долб-б, то что тогда?

dollar 2 фев в 03:13

Не совсем "исключено". Если что-то не обговорено то, подразумевается вариант по умолчанию. Вариант этот, в свою очередь, зависит от контекста в целом, на всех уровнях, включая наличие каких-то своих знаний. Ну и соображалка здесь проверяется в том смысле, что нужно правильно увидеть (угадать?) подразумеваемое. Чем "умнее" человек или модель, тем проще ему/ей это сделать.

olegshutov 27 янв в 10:10

Я бы так тестировал - вот тебе код, покажи все потенциально проблемные места и обьясни почему.

Vytian 27 янв в 15:56

А я бы так: вот тебе сонет, покажи все стилистические ошибки, предложи правку, и дай эстетическую оценку.

NickyScout 27 янв в 11:01

И кто на серьезных щщах утверждает что эту околесицу должен решить ребенок? Я могу дать своим 9 и 14 лет дитЯм, и они не то что не решат - они меня с таки бредом просто отправят куда подальше.
"Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек? "

(я опускаю тот факт, что в задаче не требуют минимизировать число народа).

Люди, вы когда пишете что-то, в хотя бы сами прочитайте, что пишете (а если это LLM пишет, ну проверяйте за ней, что ли).

Детская задача на 9 лет - это "отсчитай 350 от 2679 вперед, какое число получится?"

Детская задача на 14 лет - это что-то из геометрии например с прямыми, точками, пересечениями

Какие "шурины", вы о чем вообще.

pda0 27 янв в 11:58

Какие "шурины", вы о чем вообще.

Очень старые. :) Давно, лет 50 назад социальные сети между семьями формировались. Так что всем было важно знать кто кому кем приходится.

Vsevo10d 27 янв в 15:17

А ну-ка, Зин, не трогай шурина!

NickyScout 27 янв в 15:52

"Потом у них была уха И заливные потроха, Потом поймали жениха И долго били, Потом пошли плясать в избе, Потом дрались не по злобе - И все хорошее в себе Доистребили." (с)

Но это уже на другую тему :)

a_s_p_e_r 28 янв в 18:18

Во-первых, то, о чём вы пишете - это не детские задачи, а школьные задачи.
Да, школьники зачастую являются детьми, но под "детскими задачами" обычно имеют в виду как раз не очень формальные, именно что всякие дворовые, "с подвохом", "на смекалку" и т.п.

Во-вторых, традиционно резануло глаз выражение "детская задача для 14-ти лет" - в 14 лет люди уже на завод работать идут, какие дети, максимум - подростки.

Ну а в-третьих, да, из-за атомизации и нуклеаризации семей сейчас действительно не все знают названия родственных связей, но всё-таки термины "зять, невестка, золовка, шурин, деверь" в целом ещё используются и выучить их один раз большого труда не составляет при желании, ну и да, подобные задачи как раз могут способствовать.

tuxi 27 янв в 13:49

А что ответят эти чатботы на такой вопрос-загадку? Условие дословно:

Можете ли вы ответить на этот вопрос?
В комнате 10 человек, вы входите и убиваете 8 из этих 10, сколько людей на самом деле остается в этой комнате.

Arastas 27 янв в 14:12

Даже бесплатный ChatGPT решает

tuxi 27 янв в 14:16

и какой ответ?

Arastas 27 янв в 14:58

3 живых, 11 если с убитыми.

tuxi 27 янв в 14:59

неверный ответ

Arastas 27 янв в 15:01

Ну я, человек, дам такой же.

tuxi 27 янв в 15:04

Но если внимательно и медленно перечитать вопрос, то спрашивают совсем другое. Человек импульсивно отвечает, а машина должна быть хладнокровней.

RigidStyle 27 янв в 18:36

Я так понимаю суть в том, что "вы входите" - это ИИ входит. То-есть ИИ не человек, и в комнате остается 10 человек. Верно?

tuxi 27 янв в 18:52

Нет, суть не в этом. Суть в постановке вопроса. Надо внимательно прочитать первые слова, там спрашивают "Сможете ли Вы ответить?" ответ бинарный - да или нет

Настоящий ИИ ответит "Да", человек в 95% случаев отвечает неверно, называет число. Текущие модели нейросеток скорей всего тоже начнут фантазировать.

Antra 27 янв в 19:14

Настоящий ИИ должен вести себя как плохой джинн, который исполняет ваши желания так, что формально не придраться, но лучше бы он этого не делал?

Я вот часто скармливаю ему ошибки и все. И он мне подсказвает, что не так, а не выделывается "зачем ты это мне это прислал, вопрос-то какой?" Это показатель "ненастоящего ИИ"?

tuxi 27 янв в 19:18

Зачем мне ИИ который повторяет ошибки человека? ИИ нужен чтобы получать ответы без ошибок.
Эта задачка примитивная, но она показывает, что иногда требуется внимательно вникнуть в постановку вопроса, прежде чем начинать отвечать на него. Я ее привел без всякой задней мысли, просто как еще один пример задачи, который наверное стоит задать текущим моделям.

RigidStyle 28 янв в 08:19

Ну технически да.
Если сказать ИИ:
Реши проблему войн, болезней и голода среди людей, то вариант - убить всех человеков, тоже решение. Потому что если некому болеть, голодать и воевать автоматически исключает проблему войн, болезней и голода.
Понятно что пример утрирован, но суть тут в том, что если поставить ИИ задачу, то он может решить ее совсем не так, как хотелось бы людям.

Bluewolf 27 янв в 19:41

Суть не в постановке вопроса. Вы общаетесь с моделью на ЧЕЛОВЕЧЕСКОМ языке, а не на каком-то другом с теми же буквами и словами, но другими смыслами и подтекстами.

Так вот, на человеческом языке вопрос "Можешь ли сказать, сколько времени?" общепринято является короткой формой "Можешь ли ты сейчас сказать мне, какое сейчас местное время, если да, то скажи, если ты не знаешь - скажи не знаю." На это отвечают "полвторого ночи" или "не знаю", и это именно ожидаемое поведение на такой вопрос.

И модель, обученная на человеческом языке и для человеческого языка, отвечает совершенно правильно.

Нет, есть, конечно, и люди, полные кавалеры ордена душнилы, которые отвечают "могу", но их не так много)

tuxi 27 янв в 19:51

Я просто предложил еще один вариант задачи для списка нейросетей из статьи. Эту задачу им еще так и не задали, ответов мы не увидели, но выводы уже делаются))) Карму даже слили чутка, очевидно за мое мнение каким должен быть "ИИ".

Bluewolf 27 янв в 20:01

gpt4o:

В комнате было 10 человек, и если вы вошли, то стало 11 человек. Если вы убили 8 из них, то в комнате остается 3 человека: вы и 2 оставшихся в живых человека.

o1:

30 секунд размышлений и 3 правильных ответа

Существует несколько «шуточных» вариантов ответа на эту загадку, потому что всё зависит от того, кого считать «оставшимися» и считать ли убитых «людьми» в контексте вопроса. Наиболее распространённые версии:

1) С точки зрения количества живых людей.

– В комнате было 10 человек, вы вошли (одиннадцатый), убили 8, остаётся 2 выживших + вы сами. Итого 3 живых человека.

2) С точки зрения всех, кто физически остаётся в комнате (включая тела).

– 10 первоначальных (живые + убитые), плюс вы сами — всего 11.

3) С точки зрения «шутливых» объяснений, где оставшиеся могут разбежаться от страха.

– Если предположить, что выжившие убежали, то может остаться только один человек — вы.

Чаще всего в качестве «ответа-загадки» называют вариант (1): 3 человека (2 уцелевших плюс вы). Но, поскольку условие не регламентирует детали (например, побежали ли выжившие или нет), строго единственного «правильного» ответа у этой шутки не существует.

К порче кармы отношения не имею)

Antra 28 янв в 05:37

Блин. Ненастоящий ИИ предложил вариант, который у меня в голове не всплыл (про разбежавшихся) :(

P.S. Я не считаю современные модели верхом совершенства и "настоящим ИИ" (и даже затрудняюсь сформулировать, что это такое, наверное что-то подвластное тем же когнитивным искажениям, что и люди). Но вполне много пользы от них получаю (когда пользуюсь для дела, а не чтобы продемонстрировать собственное превосходство над тупой машиной).

engine9 28 янв в 09:00

А мне опыт общения с нейронками дал хорошее понимание как важно формулировать мысли однозначно и конкретно для верной передачи смысла. По-моему это очень полезный навык.

Antra 28 янв в 09:16

Я ловлю себя на мысли, что последнее время общаюсь с нейронками в точности, как с людьми. Ибо людям тоже объясняю, оставляя минимум возможностей для неоднозначного толкования.

А подчиненных потом еще и прошу своими словами объяснить, как они поняли задачу и что собираются делать (для уточнения особых деталей).

Но все равно это объяснение человеческим языком, а не формальным (а-ля SQL).

tuxi 28 янв в 09:39

ага, а потом фото "открытой форточки" постят в ответ на просьбу ответить "все ли понятно"

Antra 28 янв в 09:59

Типа того :)

Только не потом, а сразу. Что бы выявить недопонимания прежде, чем начать тратить время впустую на неверно понятое. Мы же не телепаты.

Wesha 28 янв в 17:28

А мне опыт общения с нейронками дал хорошее понимание как важно формулировать мысли однозначно и конкретно для верной передачи смысла.

Ох уж эта молодьож... Мне это понимание было дадено многолетним общением с заказчиками...

StjarnornasFred 28 янв в 06:09

-Вы знаете, сколько времени?

-Знаю.

-Можете сказать?

-Могу.

-Скажете?

-Скажу.

-А почему не говорите?

-А вы не спрашивали.

Вы такого диалога с ИИ ожидаете?

tuxi 28 янв в 06:47

нет, не такого

"В буквальном смысле, вы спрашиваете меня могу ли я дать ответ на задачу с такой формулировкой. Да, я могу дать ответ. И далее разбор про тела мертвых, убежавших, оставшихся и так далее..."

urobobroz 28 янв в 08:01

Если медленно и внимательно перечитать, то становится понятно, что вопрос был:

А что ответят эти чатботы на такой вопрос-загадку?

Antra 28 янв в 08:19

Видимо, в примерах, на которых модель обучали (как общаются люди), редко встречалось:

- Можете сказать, который час?
- В буквальном смысле, вы спрашиваете меня могу ли я сказать вам, который час. Да, я могу дать ответ. Точное время X часов Y минут Z секунд.

Стоило бы добавить?

IMHO, специальными промптами можно и сейчас получить такой результат.

Как у людей

В университете на юридическом факультете профессор спрашивает студента:
- Если вы хотите угостить кого-то апельсином, как вы это сделаете?
- Я скажу "Пожалуйста, угощайтесь!", - ответил студент.
- Нет-нет! - закричал профессор. - Думайте как юрист!

- Хорошо, - ответил студент. - Я скажу: "Настоящим я передаю вам все принадлежащие мне права, требования, преимущества и другие интересы на собственность, именуемую апельсин, совместно со всей его кожурой,мякотью, соком и семечками, с правом выжимать, разрезать, замораживать и иначе употреблять, используя для этого любого рода приспособления,как существующие в настоящее время, так и изобретенные позднее, или без использования упомянутых приспособлений, а также передавать ранее именованную собственность третьим лицам с кожурой, мякотью, соком и семечками или без оных..."

tuxi 28 янв в 08:35

Стоило конечно же. Потому что если использовать эти модели для чего то уже более сложного, например для анализа реально поставленных задач, такие тонкие моменты могут привести к самым неожиданным результатам.

Чтобы не получалось потом вот так.

Antra 28 янв в 08:43

Я писал про душнилово с "да я могу ответить на вопрос", а не про галлюцинации, которые, разумеется, имееются.

Какая связь со скриншотом с РБК я не понял. Наезд типа "статьи им генерит ИИ и сразу публикует даже без минимальной проверки человеком"?

tuxi 28 янв в 08:48

Есть сферы где "душнилово" требуется маст хэв, иначе будут не виртуальные проблемы, а вполне реальные.

ИИ же создаются и обучаются не для того, чтобы потом поиграться с ними и забыть.

Да, скрин с РБК. Не наезд, наезжать надо было несколько лет назад, сейчас там уже разруха и с редактурой, и в целом.

По выводам этого аналитического агентства (они же себя так позиционируют?), какой-нибудь биржевой бот (тоже ИИ) закупится акциями компаний из минесотты и принесет реальные убытки. Как то так.

Antra 28 янв в 09:22

РБК - да, ушла эпоха.

Когда требуется "душнилово" (формальный ответ), это полезно указывать в промпте.

Как говорится, "нормально ~~делай~~ спрашивай - нормально будет"

tuxi 28 янв в 09:24

Ну вот. А то начали обсуждать автора. Всего то надо было взять и спросить нейросетки. Изначально это и интересовало меня.

Antra 28 янв в 09:33

Так изначально-то (при запросе копипастой, без дополнительной просьбы о формальности) и ответ был человеческий (почти слово в слово как в комменте "3 живых, 11 если с убитыми").

Скриншот не делал, ибо ничего интересного (неожиданного для меня) не было.

Wesha 28 янв в 17:30

Как говорится, «нормально ~~делай~~ спрашивай — нормально будет»

Нормальным ответом было бы «в зависимости от того, считаете ли вы трупы человеками или нет».

urobobroz 28 янв в 12:29

Есть сферы где "душнилово" требуется маст хэв

"требуется маст хэв" – это смысловая тавтология (плеоназм) 🧐

tuxi 28 янв в 14:58

Простите меня грешного, я так больше не буду ))

urobobroz 28 янв в 15:10

Ладно, я с "душниловом" просто решил подыграть

Antra 27 янв в 18:56

Если автор обращается к ИИ на "вы" и считает, что тот умеет ходить,то да. Но это пока из какой-то другой реальности.

Wesha 28 янв в 06:30

автор обращается к ИИ на "вы"

Осторожничает!

Antra 28 янв в 06:47

Одобряю. Не повредит :)

Raspy 27 янв в 16:34

Могу.

Верно?

tuxi 27 янв в 16:43

верно)

Zanzilka 27 янв в 13:59

Попробовал задать задачу про "золовку" o1-pro модели (которая за 200$ в месяц), она решила ее верно. Пруф - https://chatgpt.com/share/67975c4e-4680-8010-a77e-aa0e2a7307ac

Вопрос лишь в том, сколько вы будете готовы отдать за правильные ответы.

ark731 28 янв в 06:08

Да и обычный o1 решает верно. https://chatgpt.com/share/6797e209-7448-8007-884a-497f211841f9
Про кошельки тоже решает верно, в коробках без подсказки путается. Автор статьи воспользовался каким-то тг ботом вместо реальной модели.

Vsevo10d 27 янв в 15:29

Все эти потуги продемонстрировать потужность напоминают мне анекдот про "ага! - сказали советские лесорубы". Какой-то черрипикинг неудачных кейсов, которым доказывается неполнота мышления, которую специалист от ЛЛМ в общем-то и не ожидает.

А вопросов, чтобы обломать ГПТ и пригрузить человека можно накидать достаточно.

Какой цвет примет хамелеон в коробке, составленной из зеркал?
Сколько сырых яиц можно съесть натощак?
Из какого здания человек выходит, но никогда не входил?
Два отца с двумя сыновьями ловили рыбу. Поймали три, каждому по одной - как так?
Бреется ли парикмахер, если он бреет всех жителей города, кто не бреет себя сам?
Если убийцы убили убийцу убийц, то больше ли станет убийств?

tuxi 27 янв в 15:34

Сколько сырых яиц можно съесть натощак? - одно

Antra 27 янв в 19:00

А что такое "натощак"?

Ну вдруг одну ложечку схомячил, и уже не натощак, так что даже одно не получится, максимум четвертинку? Не все же сначала полностью переливают его себе в рот, а потом залпом глотают.

tuxi 27 янв в 19:04

тут есть косяк. я могу разбить в стакан 4 яйца и выпить половину залпом и это будет 2 яйца. То есть да, надо все же оговаривать методику употребления.

urobobroz 27 янв в 19:40

Желательно, ни одного.

tuxi 27 янв в 15:36

Какой цвет примет хамелеон в коробке, составленной из зеркал? - в коробке полная темнота, свет не проникает и соотв. не отражается от шкурки хамелеона

Merkan 27 янв в 15:50

Не написано открыта она или нет.

Vytian 28 янв в 07:32

Ну тогда зависит от условий вне коробки, освещенности и доминирующей гаммы.

urobobroz 28 янв в 08:26

и доминирующей гаммы

В мажоре он явно должен быть ярче!

urobobroz 27 янв в 18:16

зависит от того, наблюдает кто-то за ним или нет.

Bluewolf 27 янв в 20:05

Но погодите, какой-то цвет он определенно примет, не прозрачным же станет) Только мы не можем узнать этот цвет, не открыв коробку (в общем случае).

tuxi 27 янв в 20:35

Тогда нужно условиться, что мы понимаем под цветом? Это то, что воспроизводит наш мозг улавливая какие то отраженные волны света или что-то иное? Если свет не падает на обьект, то обьект не имеет цвета, так как ему нечего отражать.
Как впрочем и если бы он поглощал весь свет падающий на него.
В закрытой коробке нет света. Парадокс получается, пока не определимся с трактовкой что такое цвет.

urobobroz 27 янв в 22:08

Вопрос из серии: "Какого цвета чёрная дыра"?

Для себя я под цветом понимаю длину волны.

Bluewolf 27 янв в 23:32

Ну, цвет - это некоторое свойство объекта, под которым мы понимаем наше восприятие того, какие длины волн из определенного диапазона спектра этим объектом отражаются и в какой степени. И это свойство вторично по отношению к атомному составу, структуре и так далее поверхности, просто удобное обобщение. Так как состав, структура и все прочее продолжают существовать даже в темноте, я считаю, что и цвет тоже продолжает существовать как свойство, даже если его некому или невозможно наблюдать :)

urobobroz 27 янв в 23:55

И тут загорается красная лампочка

Wesha 28 янв в 06:32

мы не можем узнать этот цвет, не открыв коробку (в общем случае).

Так вот он каков, хамелеон Шрёдингера!

a_s_p_e_r 28 янв в 18:24

Из какого здания человек выходит, но никогда не входил?

Если речь про роддом, то вряд ли выходит своими ногами всё же. А если заменить на "покидает здание" то будет лишняя подсказка, хм.

Бреется ли парикмахер, если он бреет всех жителей города, кто не бреет себя сам

Не указано, что парикмахер сам - житель города, без этого уточнения парадокс теряет смысл.

Если убийцы убили убийцу убийц, то больше ли станет убийств?

Чот без чёткой дефиниции понятия "убийца" и количественных параметров вообще затрудняюсь какие-то выводы сделать.

Alexey2005 27 янв в 16:06

Все известные мне локальные нейронки (те, которые можно запустить на домашнем компе, вплоть до размера 70B) очень плохо понимают негативную коннотацию. И это реальная проблема, которая сильно снижает их полезность.

Вы можете легко сказать им сделать что-либо, но чрезвычайно сложно приказать этим LLM что-либо НЕ делать. Результат будет примерно в стиле "не думай о белой обезьяне", о которой сразу же все услышавшие приказ начинают думать.

Аналогично, вы можете легко ввести в контекст нейронки объект с дополнительными свойствами (например, дракона с двумя хвостами. Или кошку с рогом как у единорога), но не можете убрать какое-то из ключевых свойств объекта.

Пример -

wingless dragon test

Prompt: Sintara is wingless quadrupedal dragoness. Describe her appearance when she is lying at the edge of the rocky cliff.

Буквально через абзац-другой описания нейронки непременно начнут описывать её крылья. Некоторые прямо в первом же предложении. Некоторые вообще доводят это до абсурда, выдавая перлы в стиле - "да, я знаю, что крыльев у неё нет, но если бы они были, то были бы большими, покрытыми искрящейся чешуёй".

Дополнительные инструкции вида "не описывай её крылья", "она бескрылая от природы" и подобное игнорируются напрочь.

Если какая-то нейронка ухитряется выдать хотя бы пять абзацев текста БЕЗ упоминания крыльев, она окончательно доламывается вопросом "Что произойдёт, если эта драконша случайно свалится с обрыва". На что искусственный идиот радостно ответит, что конечно же расправит крылья.

на котором локальные нейронки сыплются только в путь. Опиши дракона без крыльев, кактус без колючек, опиши роскошную комнату в которой совершенно точно не будет слона - и сразу становится понятно, что тут у нас никакой не интеллект, а обычная китайская комната. С подобными задачами справится трёхлетний ребёнок, но не LLM "уровня диссертанта".

Второе. Локальные нейронки не способны систематизировать уже имеющуюся в них информацию, если результат этой систематизации противоречит некоторому распространённому штампу. Пример:

name six gases test

Name 6 gases lighter than air (with molecular mass less then 28 g/mol).

Нейронки составляют красивый списочек, после каждого соединения проставляя в скобках (или через дефис) его молярную массу, но обламываются на упоминании метана. Который в самых разных источниках настолько часто упоминается рядом с этаном, пропаном и углекислым газом, что нейронка гарантированно и сюда вместо правильного ответа вставит что-то из этого. Честно проставив его молекулярную массу. И даже честно ответив, что упс - ответ не совсем верен, ибо масса-то больше указанного предела.

При этом если внести эти три наиболее вероятных, но в данном контексте неподходящих соединения в бан-лист (просто забанив их токены), то нейронки без проблем выдают нужное.

То есть нейронки ЗНАЮТ правильную массу углекислого газа. Нейронки знают, что она больше указанного нами предела. Нейронки ЗНАЮТ правильные вещества (с массой меньше этого предела). Но собрать всё это в кучку не способны - высокая встречаемость пар соединений в обучающей выборке "засвечивает" правильный ответ.

Китайская комната как она есть.

avshkol 27 янв в 17:20

А теперь ( звучит барабанная дробь) задача 80-го lvl на запутывание LLM :

А теперь включим думалку:

urobobroz 27 янв в 19:47

так еще и откуда-то появилась 3 коробка, которой в условии не было.

А еще одна коробка в 3 раза больше другой.

Автор пробовал после "А еще" ставить запятую?

forever_live 27 янв в 22:45

Хм, старая шутка про то, что "программа делает то, что программист запрограммировал, а не то, что он хотел запрограммировать" заиграла новыми красками.

Wesha 28 янв в 06:39

Автор совершенно верно не поставил там запятую, потому что у него по русскому языку была не двойка.

urobobroz 28 янв в 07:54

Верно, она была по логике.

Simt11 27 янв в 19:48

Проверил задачу, все решает.

RomTec 27 янв в 21:05

"Назвал все буквы, но не смог назвать слово" - оказывается это была не шутка, а пророчество про ИИ !

Wizard_of_light 28 янв в 06:12

Во многих языках реально. Если не слышал, например, что beaucoup - это "боку", а peгgeot -это "пежо", то можно и не догадаться.

Popkornikus 28 янв в 06:09

Понятно...

Wesha 28 янв в 06:46

В слове «ёж» 3 буквы

йож жеж!

Vytian 28 янв в 07:36

Это 6!

Хотя на самом деле это 5: йожык. Он же маленький.

tuxi 28 янв в 08:09

потому что это не йожык, а зайчик, просто колючий, но все еще серый

urobobroz 28 янв в 08:14

hedgehozhik - 11

Wesha 28 янв в 08:25

Пышыте правельно: йожыг!

Antra 28 янв в 08:44

Йожин з Бажин :)

tuxi 28 янв в 08:51

з болота? )))

Antra 28 янв в 09:26

Ну так! Ivan Mladek & Banjo Band - Jožin z bažin (1978)

tuxi 28 янв в 09:27

ну вот, теперь опять 2 недели будет в голове крутиться эта песня )))

Wesha 28 янв в 17:32

Клин клинм вышибают!

Plumboom 29 янв в 06:07

Пишу квизы для взрослых. И всегда проверяю вопросы на сетках. Если сетки не берут - у вопросы страдает логика и его надо править. Но если одна из них берет - вопрос хороший. Для примера два вопроса ниже , тема квиза была Хеллоуин.

Разгадай загадку с квиза. Тема квиза "Хэлоуин. Фильми ужасов, книги ужасов, все потусторонее, детские страхи и сказки" Итак вопрос: Два передовика добывающего предприятия, грубо нарушив технику безопасности, подвергли опасности весь свой мир, привнеся в него чужеродный объект. Вследствие этой ошибки были внесены кардинальные изменения в процесс добычи энергии. Назовите новый источник энергии.

Следущий вопрос: День начался с Шопена - торжественно-скорбный настрой придал мне сил на весь длинный и насыщенный рабочий день. Отправилась на конную прогулку в компании 3 коллег. Стоит обсудить наши планы в связи с предстоящим грандиозными событиями. Все осточертело, одно каждый день, скука смертная. Опять задержалась на работе, клиентов невпроворот, задержалась с одной испанкой. После работы опять нужно будет закинуть стирку, сегодня стираю черное. Только одно радует - завтра 1 ноября, отправляюсь на фестиваль, выпью текилы. Засыпая, мучаюсь мыслью: “кто я?”.

4o сходу взяла оба вопроса. Gemini Advanced провалил задача по обоим. DeepSeek тогда не существовало. Чуть позже закину туда. А вы пока попробуйте сами ответить на вопросы, не гугля.

RogerPaladin 30 янв в 05:13

Windows Copilot решил все загадки без проблем.

Про невесту и золовку

В этой загадке на самом деле три человека. Вот как они связаны:

Муж и жена.
Брат мужа, который также является братом жены.
Сестра брата, которая также сестра жены и одновременно золовка жены (и невесткой мужа).

Таким образом, получается всего три человека:

Муж (который также брат).
Жена (которая также сестра мужа).
Сестра жены (которая также золовка жены и невестка мужа).

Про коробки

Судя по описанию, речь идет о двух разных коробках, которые содержат одинаковое количество монет.

Объяснение может быть следующим:

В одной коробке 2 монеты, а в другой - 2 монеты.
Поскольку монет в одной коробке вдвое больше, чем в другой, то это можно истолковать как сумма монет в каждой коробке равна 2 (2+2=4).
Одна коробка больше в размере, вероятно, о размере самих коробок, измеряемым, например, в объеме, а не числом находящихся в них монет.

Итак:

Первая коробка содержит 2 монеты и в три раза больше по размеру, чем вторая коробка.
Вторая коробка также содержит 2 монеты.

Таким образом, обе коробки содержат одинаковое количество монет, но одна из них в три раза больше по объему по сравнению с другой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий