Обновить

Комментарии 57

Ошибочные все и тут же самый первый тот ответ что получился в конце статьи

Я так понимаю, что в конце статьи не правильный ответ, а "Пример феерического бреда от нейросети", от DeepSeek.

Да, я как-то само собой ожидал увидеть "человеческое" решение во второй половине статьи. Тогда получается в статье нет ни решения, ни даже правильного ответа(ну или я слишком уж по диагонали смотрел) то тогда выходит, что порядка 80-90% объёма статьи состоит из бреда нейросетей и качественно по сути мало отличается от "всеми любимого" нейрослопа.
Задачка-то не то чтобы простая, вот уж не знаю много ли найдется инженеров которые закончили вуз сколько-то лет назад, которые смогут её решить. Её решит разве что студент-отличник, которому вот прям сегодня сдавать термех. Интересно, будь там просто конус вместо пресловутого гвоздя, вдруг нейронки может быть даже и смогли бы решить правильно, но у меня точно нет таких навыков чтобы это проверить.
Сейчас пока чтобы сломать нейронку достаточно задать ей какой-нибудь заковыристый вопрос из кокретно своей специализированной темы, в которой ты хорошо разбираешься. Если же нейронка хорошо и безошибочно справляется прям со всеми с вопросами из вашей темы, то у меня для вас плохие новости :)

Да, увидеть правильное решение хотелось бы. Или хотя бы правильный ответ.

Зачем? Чтобы задача потеряла своё значение в качестве теста отсева нейронок? Физики и инженеры смогут, этого достаточно.

Гораздо интереснее попробовать применить алгоритм к другим областям, где нейронки считаются хорошими, например программированию.

Чтобы задача потеряла своё значение в качестве теста отсева нейронок?

Если написать только правильный ответ, это не особо повредит отсеву. А физики и инженеры смогли бы проверить свой результат.

Затем чтобы самим сравнить с ответом нейронок и понять верны ли выводы автора. Очень много статей на тему «нейронки не могут что-то» а по факту оказываются что вполне себе могут. А причины почему у авторов статей «не могут» или берут не топовые версии, или криво пишут запрос.. и тд

Я хотел дать задачу в следующий номер печатного журнала "За науку", а потом опубликовать решение. Так что пока в интернете не публикую.

Могу сказать, что с помощью Gemini 3.0 удалось сгенерировать правильное решение этой задачу, после того как я ему объяснил все его ошибки. Причем самую большую сложность для Gemini почему-то представляет правильно посчитать и правильно использовать момент инерции гвоздя, с этим у него было очень много путаницы.

Так что LLM и с такими задачами помогают - просто нужен грамотный человек, который ищет в их решениях ошибки и дает обратную связь. Это гораздо быстрее, чем человеку написать решение самостоятельно.

Из статьи список ошибок нейросетей был составлен им же после генерации правильного решения и показа ему других решений от нейросеток.

В целом, если сравнивать нейронки между собой на решении этой задачи, все не могут справиться, но меньше всего ошибок делает как раз Gemini 3.0.

а первую же картинку в статье тоже нейросеть рисовала? Голубой радиус на шляпке гвоздя не в ту сторону вращается...

Да, нейронка нарисовала.

Я по тексту условия вообще не понял задачу. Вбитый в наклонную плоскость гвоздь, из моего житейского опыта, не должен по ней кататься и не обязан касаться плоскости шляпкой. По картинке понятнее что нужно посчитать, но там изображено что угодно только не "вбитый гвоздь".

Ошибка LLM разве что в том что они пытаются додумать некорректно сформулированные условия, вместо того, чтобы задавать уточняющие вопросы.

как составлять задачи, чтобы человек их решал, а AI — нет

Сформулировать условие максимально путанно и двусмысленно. Можно завалить и нейросеть и неугодного ученика на экзамене.

верно, автор "сам обманул ИИ условием задачи, сам обиделся",
если гвоздь ВБИТ - он может ну максимум вибрировать, но не кататься

Да, прочитав про период колебаний, тоже вначале подумал про вибрацию.

Статья, которая ставит интересный вопрос, и комментарий, который находит интересный ответ — что может быть круче! Разрешите и мне присоседиться с уголка к вашему интеллектуальному пиршеству. Я поправлю формулировки с эпистемологических позиций, а потом добавлю свои пять копеек.

Итак, вопрос — «как человеку поставить в тупик чатбота?». Человек, в отличие от чатбота, реализует алгоритм творческого мышления. Что это за алгоритм, не знает никто. И создатели чатботов тоже не знают. Поэтому в чатботах он и не реализован. (Есть, конечно, клоуны, которые говорят: а вдруг он там сам собой реализовался? Им можно посоветовать сесть за клавиатуру и бить по ней чем попало, а потом посмотреть, реализуется ли в результате хотя бы пузырьковая сортировка). Соответственно, ответ — надо предложить чатботу творческую задачу. Но такой ответ не даст искомой «мебельной магии», потому что «творческая задача» и «задача, которую не может решить чатбот» — это эквивалентные формулировки. Чтобы магия появилась, надо копнуть вглубь, например, предложив конкретный способ.

На первый взгляд кажется, что это невозможно: придумать творческую задачу — само по себе творческая задача (т.е. не раскладывается на классические алгоритмы). Однако, на помощь спешит эмерджентность. Скажем, нарисовать хорошую картину или написать хорошую книгу — творческие задачи, однако существуют статьи с приёмами в помощь начинающему писателю или художнику. Следовать приёму потребует творческого мышления, поэтому противоречия не возникает. Предложить такой приём — нужная нам «мебельная магия».

И вы такой приём выкупили в тексте автора! Он не в высоколобой математике и физике, а в обмане с формулировками. Только это не должно звучать «как что-то плохое», это действительно интересный способ. А почему нет? Это мне напоминает тесты IQ. Я их в своё время без энтузиазма полистал (отношение к ним у меня было изначально скептическое), и обратил внимание вот на что. Часто я могу выбрать любой вариант из предложенных, и обосновать свой выбор. Например, предлагается найти элемент, непохожий на остальные. Но уникален каждый элемент: первый тем, что первый, второй тем, что второй, и т.д. Если бы судило жюри, можно было предложить такой ответ и рассчитывать, что его зачтут как верный (хотя бы остроумный). Однако, когда вы сидите наедине с листком и карандашом, никакого жюри нет. А с бумагой не очень-то поспоришь. И нужно смоделировать составителя вопроса, чтобы понять, какой ответ он посчитал верным. Поэтому я всегда говорил, что тесты IQ это тесты на конформизм. Проявить который, однако, действительно требует ума.

Есть что-то общее между пониманием того, что хотел сказать автор IQ-теста, и тем, что хотел сказать автор вопроса, говоря «вбил гвоздь». Очевидно, у физиков «вбивание гвоздя», заканчивающегося «материальной точкой», эквивалентно шарниру с нулевым трением. Это, конечно, обман, но без обмана. Честный обман. Дающий действительно интересный способ снова и снова доказывать, что железный дурак думать не умеет. (Невозможно защититься от приёма, просто подправив датасеты — только от конкретных задач).

В чем проблема больших языковых моделей

Дело в том, что это упражнение в первую очередь на пространственное воображение. Чтобы решить ее, LLM должны понимать, как выглядит мебельный гвоздь...

Если вы преподаватель, составитель олимпиад или просто хотите потроллить любую версию LLM, вот вам алгоритм. Почему задача про гвоздь сработала?

  1. Скрытая топология.
    Сказано "стержень + шляпка". Человек строит 3D-модель в голове и понимает, что это. Нейросеть работает с текстом. Слово "стержень" тянет за собой вектор ассоциаций про одномерные объекты. Описывайте составные объекты, свойства которых (например, центр вращения) вытекают из их геометрии, а не заданы явно.

  2. Нестандартные связи.
    Обычно тела катятся вниз. Здесь тело катится по кругу на наклонной плоскости из-за своей формы. Это "геометрическая связь", которую нужно вывести самому. Задавайте условия, где кинематика движения определяется формой объекта.

  3. Многоступенчатый вывод.
    Чтобы получить ответ, нужно: найти ЦМ \rightarrow найти тензор инерции \rightarrow повернуть ось \rightarrow связать угловые скорости. LLM плохи в длинных логических цепочках, даже если эти цепочки состоят из совершенно элементарных шагов.

  4. Редкие числа.
    Шляпка массы 2m и радиуса L/4. Это не стандартные m и R. Это сбивает "интуицию" модели, обученной на стандартных учебниках Иродова или Савченко.

  5. Подвох.

    Задача должна быть сформулирована как похожая на что-то из известных задачников, но решение должно существенно отличаться от решения таких задач.

Магия мебельных гвоздей

Нейросети не понимают физику. Они имитируют решение физических задач.

Хорошо сформулированы недостатки ЯМ для решения задач требующих воображения, вообще образного мышления. См. комент со сравнением с возможностями человека, которые пока не реализованы в ЯМ, и которые позволяют решать подобные задачи. Там упоминается, как можно тренировать мультимодальные ЯМ, чтобы они могли решать их лучше, и как раз подоспел Uni-MMMU Benchmark, который пока лучше всего подходит на эту роль.

Чтобы создать живое, нужно добавить в нейросеть надежду и любовь. Сейчас нейросети работают только на вере, на вероятном. Отсюда и галюны. Вера оперирует вероятным, надежда невероятным, а балансером должна быть любовь (имхо это самое сложное)

https://genius.com/Fleur-living-thing-lyrics

Флёр клевые

ИИ точно и правильно рисует катающийся гвоздь (код для анимации в начале статьи написал как раз Gemini)

Кажется не совсем - гвоздь вращается вокруг штыря не в ту сторону. Или это моя зрительная нейронка сбоит?

Похоже да, не в ту сторону. Я сам не заметил.

Еще раньше была смешная задачка, на которой все нейросети валились: Есть 8 монет: 7 маленьких и одна большая. Большая весит больше мелких монет, все мелкие - идентичные. Как мне найти большую монету?

Тут нейросетка коррелирует задачу с задачами на взвешивания, даже при том, что в условии ничего про весы не дано, а ответ лишь "посмотрите на размер монеты". Еще можно размер поменять на цвет или номинал.

Еще иногда срабатывала задача про осла, козу, волка и лодку, только в лодку помещаются все, но нейросеть выдает известное решение с маленькой лодкой.

Это потому, что у нейросети нет логики. Она лишь изображает логические рассуждения, потому что получившийся поток токенов статистически похож на то, что она уже видела. К сожалению, эти галлюцинации достаточно часто срабатывают, чтобы созадвать вау-эффект и высокие ожидания сильного ИИ.

Еще иногда срабатывала задача про осла, козу, волка и лодку, только в лодку помещаются все, но нейросеть выдает известное решение с маленькой лодкой

Ну-у-у, это и у математиков есть такая уязвимость. Наверное, поэтому им нобелевки не дают.</s>

это и у математиков есть такая уязвимость. 

"...выливаем воду из чайника, и этим сводим задачу к уже известной..."©

Если гвоздь вбит - он никуда не катится.

У мебельного гвоздя широкая шляпка и короткая ножка. Он скорее перевернется чем будет так катиться.

Странная задача.

Думаю, это неудачная формулировка для "острие остается в той же точке". А как катаются подобным образом болты или шурупы, легко увидеть в реале.

неудачная формулировка

Очень.

А как катаются подобным образом болты или шурупы, легко увидеть в реале.

Совершенно не так. У болта нет острия ;)

Тут на одной постановке задачи можно моск сломать.

А какая формулировка будет удачной? Ведь у болтов и шурупов конец двигается, а тут нужно что-то типа шарнира, т.к. острие вбито же.

Гвоздь подвешен на нитке за острие.

Но тогда кончик гвоздя же всё равно будет перемещаться.

Или написать "длину нити можно считать пренебрежимо малой"?

Гугл по запросу "мебельный гвоздь" выдает вполне то, что нарисовано и написано у автора: ножка раза в 4 больше радиуса шляпки.

Я как-то так себе и представлял, до тех пор, пока не прочитал в статье

гвоздь, опирающийся на острие и шляпку, будет устойчиво крутиться на плоскости при любом адекватном угле (пока хватает трения).

Т.е. таки автор предполагает какое-то шарнирное закрепление (потому и "прибит").

Исправьте форматирование, чтобы ответы моделей были цитатой - не отличить, где текст автора, людей это вводит в заблуждение.

Засунул в спойлер. Так удобнее же?

В следующий раз так буду делать.

AGI знаком со сферической системой координат? В ней задача решается проще.

Я помню эту задачу про одну маленькую монетку, которая катится вокруг большой. Радиус маленькой монетки в три раза меньше большой. Сколько раз обернется монетка вокруг себя, пока сделает полный оборот вокруг большой?

В голове сразу "ага, радиус в три раза меньше, значит, периметр маленькой тоже в три раза меньше. Следовательно, три оборота".

Скрытый текст

Четыре, не три! Забыли, что монета не скользит, а катится! То есть 3 + плюс еще и собственный оборот. Не верите - возьмите монетки и попробуйте.

Правильного ответа не было среди предложенных вариантов, то есть ошиблись даже составители.

Я задал этот вопрос Gemini 3 - он дал правильный ответ сразу и сослался на парадокс. То есть он не догадался, а просто знал историю задачи.

НЛО прилетело и опубликовало эту надпись здесь

А я, пожалуй, осторожно повторю свою точку зрения.

ИИ уже AGI. Просто мы как-то не заметили этого.

Поясню.
Вот здесь привели задачу которую языковые модели решить не могут. А давайте для чистоты эксперимента дадим решить эту задачу жителям любого обычного среднего многоквартирного дома. 100 квартир, 200 жителей.

Вопрос. Сколько людей хотя бы поймут условие этой задачи?

В моём доме эту задачку ну может быть студент какой-то решит. Я вот не решу. И никого из соседей не знаю кто может решить. Ну может быть пару знакомых смогут. И наверное не с первого раза, сначала с ошибками.

Какой вывод сделаем? У людей нет интеллекта?

В древнем Риме задачу на умножение понял бы 1 из 1000. А в средневековой Европе за подобное сожгли бы ;)

Вывод: население тупеет.

В какой момент истории жители случайного дома, квартала, хутора решали подобные задачи?

А давайте для чистоты эксперимента дадим решить эту задачу жителям любого обычного среднего многоквартирного дома. 100 квартир, 200 жителей.

Это не корректное сравнение. Любой из жителей закончил обучение в школе, может еще в институте. А ЯМ обучались на информации собранной почти всем человечеством за всю историю. И все же они часто проигрывают даже в простых задачах на сообразительность, которых не было в обучающей выборке. Корректно было бы сравнивать все человечество против ЯМ, если выиграют, то да, уже аги) а так пока нет.

Все это, конечно, так и, действительно, LLM решают задачи как многие (вполне, по повседневным понятиям, GI) школьники и случайные студенты путем выбора из массива формул тех, в которые входят похожие буквы. Но есть нюансы.

Где-то на ютюбе есть ролик с моим (вероятно так и оставшимся единственным) комментарием с докладом на каком-то серьезном мероприятии о математических способностях ИИ. Дело было сколько-то лет назад, когда только начинали про такие способности всерьез говорить. В частности в докладе приводился пример задачи решенной ИИ. Какая-то элементарная кинематика, но задача поставлена была немного казуистически (вроде катающегося прибитого гвоздя), в духе нахождения обратной скорости при заданных времени и пройденном пути. Когда слушал доклад подумал, о, как хитро придумали поймать ИИ - к стандартной формулировке нестандартный вопрос. ИИ, ожидаемо, дал неправильный ответ. НО, как быстро стало понятно, докладчик привел эту задачу как пример того, что ИИ умеет решать задачи. Я так и не понял, то ли докладчик, походя, аудиторию протроллил, то ли и сам не разобрался. Аудтория послушала, похлопала, позадавала полагающиеся случайные вопросы, на этом дело и закончилось. Мой комментарий, по видимому, тоже остался незамеченным.

Хорошо, а когда ллм задать, что катается конус, а не гвоздь, они дают правильный ответ?

Конус по-разному решают, иногда правильно, иногда нет. Но в целом конус для нейронок проблемой не является, такое в их обучающей выборке есть.

Я не решу, хотя и учился в аспирантуре по теоретической физике. Механика со сложными кинематическими связями -- очень специальная область.

Для любителей поугарать над LLMками: Устанавливаете OpenScad и просите модельку нарисовать через скрипты опенскада - подшипник качения. Или редуктор. Или пусть даже ДВС автомобиля. Она пишет код, вставляете ее в опенскад...

Это настолько смешно, что заменяет любые эти ваши мемчики.

Но это пример неправильного использования LLM.

Да, это пока слабое место. LLM не умеют отвечать в духе "я не обучена хорошо решать такие задачи, но если вам чисто поржать, могу попробовать". И давать ссылку на специализированный инструмент, который сделает это качественно, если такой есть.

Возможно, в ближайшем будущем научатся.

А это ДВС...

Ну, кстати, вполне узнаваемо. Я думал совсем треш будет.

Не скажите!
Клауди Опус очень знатно нарисовал мне шарико-подшипник.

Есть еще такая идея, сгенерировать чертеж новогодней елки для 3D-принтера, а потом напечатать на нем всю конструкцию. Назвать год "годом ИИ" и на елку повесить табличку "новогодняя елка с точки зрения Chat GPT".

Для таких задач лучше сначала скармливать и условие и правильное решение. Просить переписать промпт, чтобы модель сама сформулировала условие, как она его представляет. И вот этот промпт уже запускать в бенчмарк.

Так это подгонка получается. В реальном мире же нет изначально известного решения и формулировки, заточенной под данную модель.

Моё разочарование ЛЛМ-ками случилось когда я их просил генерировать схемы простейших электронных устройств, типа симметричного мультивибратора на двух биполярных транзисторах. Они все обсирались.

Угу. Результат работы ллм нужно верифицировать. Но одно дело - 6-лапый кот, его видно сразу, а если не видно - и так сойдет. А найти ошибки в простыне кода - проще самому написать.

Иными словами - часть, хм.... субзадач этой задачи - для человека решены определенным контекстом. Которого у нейросети нет и его нужно вводить отдельно, в отличии от людей. Ну это, строго новоря, не большая проблема.

В общем-то, подход с лагранжианом абсолютно правильный. Тут речь идет об одномерной системе, для которой в качестве измерения можно взять угол отклонения от вертикали φ. Тогда ясно, что лагранжиан L(φ, φ') будет, на самом деле, такой же как у обычного маятника, с некоторыми поправками. Потенциальная энергия U(φ) будет помножена на какой-то постоянный коэффициент (потому что центр тяжести выше чем у обычного маятника, и его легко найти), и кинетическая энергия K(φ') тоже (т.к. во-первых тело не точечное, а во вторых есть еще энергия вращения шляпки гвоздя), этот коэффициент вычислить сложнее, но тоже не так уж и сложно. Далее, поскольку от умножения лагранжиана на константу ничего не меняется, а потенциальная энергия пропорциональна g, то становится совсем просто т.к. можно вообще взять готовую формулу для частоты колебаний обычного маятника и "поправить" в ней g на отношение этих коэффициентов.

Лучше всего так и решать

 можно вообще взять готовую формулу для частоты колебаний обычного маятника

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации