Qwertcoser May 8 at 09:10

Почему ИИ решает математические задачи, если не умеет думать

Easy

3 min

15K

Natural Language Processing * Mathematics * Machine learning *

Analytics

Recovery Mode

Translation

Comments 35

nakesreong May 8 at 11:26

какое отношение арифметические операции имеют отношение к "думать"?

или у вас калькулятор "думает", раз он честно выполняет арифметические операции?

ИИ же берет золото на IMO, ни один калькулятор золото на IMO не возьмёт

Возникает вопрос: зачем языковой модели учиться тому, что похоже на сложение?

ни зачем. интеллект, даже искусственный, так не работает, он не задаётся вопросом "зачем мне чему-то учиться". он ищет паттерны в массиве данных, обобщает, улавливает взаимосвязи, сопоставляет факты, находит закономерности. ребенок не задаётся вопросом "зачем мне учиться говорить и произносить слово Мама"

в этом смысле ИИ очень даже умеет "думать". то что ИИ "не думает" это уже люди придумали у которых горит от того что думать оказывается может алгоритм, и им жизненно важно доказать что "думает" ИИ не по настоящему

nakesreong May 8 at 13:23

я кстати не думаю что ллмы считают циферки как-то не так как люди )

я тоже считаю "быстро и грязно", 36+59 у меня будет "где-то чуть больше 90", просто потому что 3+5 это 8, а 6+9 явно больше 10. и можно конечно сказать "ага, видишь, ты понимаешь разряды!"

но это цифры. люди придумали удобную для себя символьную запись. мне не надо ни придумывать разряды, ни даже знать о них - они заложены в форму записи, как Я её вижу. ллм же "видит" цифры в тексте иначе, не так как человек. потому что у них токены и векторы. ллм не видит циферки, у ллм нету глазиков )

если ллм мультимодальный и если его арифметике поучить чисто по сканам учебников начальной школы, скорее всего он тоже увидит что разрядность в десятичной системе счисления уже вшита в форму записи. и видя 36+59 (картинкой, записью цифрами) сразу видно что десятков будет больше чем 3+5. а так как в один разряд ты не запихнешь 2 десятка (в смысле не бывает так что две единичных циферки в сумме дали бы 20, даже 19 невозможно, максимум 18), то первая цифра будет в 36+59 будет 9, а вторая где-то между 1 и 8, в данном случае 5. это все - паттерн мэтчинг, а не какая-то там "магия мышления". ну и сложение же двух чисел одного разряда всегда идёт по памяти. мы тупо помним что 9 не хватает единицы до 10. и что 6 минус 1 это 5. и что 6+9 это 15. вообще 9 плюс какое-то число (меньше 10) это всегда 10 плюс то число минус один. и всё )

и это всё решается в уме через представление записи чисел. во всяком случае у меня. люди специально придумали такую форму записи что бы было удобно считать в столбик ) разряды уже заложены в форму записи, которую немультимодальный ллм даже не увидит. возьми ребенка, обучи его арифметике не записывая числа цифрами, а записывая их буквами, в строчку. типа "пятьдесят девять плюс тридцать шесть" - где-то вот так ллм "видит" запись этими своми векторами. естественно на этапе обучения находит свои эвристики для счета, свои паттерны, и они не похожи на человеческие.

мы в самом представлении информаци кодируем информацию. и то что ИИ, ллм, просто в следствии иного устройства каналов ввода видит мир иначе чем мы. говорить что ИИ не думает потому что воспринимает информацию иначе, это все равно что говорить что слепой от рождения не думает, ведь он не видел цвет травы

enderman08 May 8 at 13:35

Как нынче модно говорить

Touch the grass

Zhabrozavr May 8 at 17:50

А если своими словами?

naklikal yesterday at 09:18

Выйди траву потрогай.

Zhabrozavr yesterday at 11:01

Абырвалг

Pshir May 8 at 15:33

я кстати не думаю что ллмы считают циферки как-то не так как люди

А это легко проверить. Можно обучить LLM только на примерах в десятичной записи. Потом написать ей, чем отличается шестнадцатеричная запись, и попросить написать и решить несколько примеров в шестнадцатеричной записи.

nakesreong May 8 at 15:48

не так то легко, разве что мультимодальную. когда ребёнок осваивает арифметику. он видит 36 глазами, буквально воспринимает это как пространственный объект из двух знаков, расположенных рядом, где левый знак 3 имеет позицию десятков, а правый 6 - позицию единиц. позиция кодирует разряд. и эта пространственная информация впитывается до того как ребёнок осознаёт что такое разряд. он сначала видит структуру, потом уже учится её называть.

а ллм это всё не видит. для модели 36 - это либо один токен, либо два, в зависимости от токенизатора. и если два — то токены 3 и 6 соседствуют как абстрактные сущности, без пространственной информации о том что один левее другого. позиционное кодирование в трансформере говорит "токен А идёт перед токеном Б", но это не то же самое что "знак 3 находится в позиции десятков".

но это объясняет один странный эмпирический факт про ллм =) модели гораздо лучше справляются с арифметикой когда им дают chain-of-thought и просят расписать решение по шагам, чем когда просят сразу ответ. почему? потому что расписывание по шагам превращает невидимую пространственную структуру обратно в текст, в котором модель уже может работать. "сначала складываем единицы: 6+9=15, пишем 5, переносим 1. теперь складываем десятки: 3+5+1=9. ответ 95." это вербализация той пространственной операции которую человек делает молча, потому что у него глаза. ллм нужны слова там где у человека достаточно зрения )

крч через CoT можно проверить, но через CoT они много с чем справляются ))

ну и, это конечно только мое имхо, но нам требуется так много данных для обучения моделей просто потому что очень много информации теряется при перекодировании текста/символов в векторы

Pshir May 8 at 16:23

позиционное кодирование в трансформере говорит "токен А идёт перед токеном Б", но это не то же самое что "знак 3 находится в позиции десятков"

Именно это и означает, что LLM не воспринимает числа так, как это делает человек. Точнее, запись 2+2 обрабатывается LLM и человеком примерно одинаково. А обработка записи

$2.718^{3.1416i}$

вообще ничего общего не имеет.

Причём, нет никаких запретов сделать нейросеть, которая будет воспринимать математические выражения так, как это делает человек, а не как LLM. Просто это пока не нужно тем, у кого есть на это деньги. Математики, в отличие от программистов, всё ещё намного дешевле, чем нейросети :)

nakesreong May 8 at 18:40

но это опять не значит что ллм не думает ) есть допустим исследования некоторых племен, племя пираха, племя мундуруку, у этих вообще нет точных чисел больше 3-4 в языке. им просто не требовалось считать ) при этом мышление работает прекрасно, только иначе )

(хотя вот даже хз, смог бы представитель такого племени в программирование)

а с вот этим

Просто это пока не нужно тем, у кого есть на это деньги. Математики, в отличие от программистов, всё ещё намного дешевле, чем нейросети :)

абсолютно согласна

Pshir May 8 at 19:13

при этом мышление работает прекрасно, только иначе

Я думаю, мышление у них работает примерно так же. Недавнее отсутствие слова «прокрастинация» в русском языке никак не помешало нам его понять и начать использовать. Если они умеют считать до 4, то это автоматически означает, что они умеют считать до скольки угодно - в этом отличие LLM и человека. И в программирование кто-нибудь из них (наиболее любознательные) точно смогли бы. Возможно, если у них нет письменности, то учить писать код их было бы слишком сложно, но освоить какой-нибудь Scratch - я думаю, что взрослые люди из того племени в среднем справились бы с этим быстрее, чем взрослые люди из нашей цивилизации, не знакомые с программированием.

Neon7Blade May 8 at 19:36

Вот не надо про удобство, иначе бы не было столько людей, которые не понимают математику

Pshir yesterday at 08:30

Человеческий мозг склонен к лени, потому что при активной работе он потребляет 20 процентов мощности человеческого организма. Непонимание математики - это нежелание её понимать. Потому что в этом нет никакой необходимости.

Pshir May 8 at 13:36

ИИ же берет золото на IMO, ни один калькулятор золото на IMO не возьмёт

С точки зрения LLM задачи с IMO отличаются от примеров на сложение из начальной школы только длиной контекста. И то, и другое LLM решают абсолютно идентичным способом. Что характерно, люди тоже решают задачи с IMO и примеры на сложение примерно одинаковым способом. Только у LLM и у людей эти способы различаются очень сильно.

ни зачем. интеллект, даже искусственный, так не работает, он не задаётся вопросом "зачем мне чему-то учиться"

LLM точно ничем не задаются. Задаются те, кто составляет обучающую выборку.

nakesreong May 8 at 13:40

так же как и школьник в школе ничем не задаётся, а задаются те, кто составляет обучающую программу. и что дальше?

Pshir May 8 at 15:13

Подавляющее большинство школьников не задаётся. Некоторые задаются.

nakesreong May 8 at 13:49

Что характерно, люди тоже решают задачи с IMO и примеры на сложение примерно одинаковым способом. Только у LLM, и у людей эти способы разные

угу. но в общем у "этих способов" есть название, которое мы отлично использовали в отношении друг друга до создания ллм - это называется "мыслительный процесс" ))

это вы уже сами решайте, вам шашечки или ехать =) лично я сужу по функциональности. самолёт не имитирует полет - он летит. просто не так как птица

Ginko007 May 8 at 15:54

Да людям, наверное, просто страшна мысль, обнаружить себя возникшим из алгоритма, просто биологически воплощенного.

Pshir May 8 at 16:48

Люди же возникли не совсем из алгоритма. Люди возникли в результате специфических быстро меняющихся условий, в которых отклонения от алгоритмов регулярно приводили к выигрышу.

Сейчас этого отбора уже нет :)

Neon7Blade May 8 at 19:42

Если этого отбора нет, значит, что и видно, такой подход хаотичный - стал вредительствующим

Pshir yesterday at 08:21

Нет. Это значит, что сейчас репродуктивный успех людей никак не связан с умственными (или любыми другими) способностями.

igorsmolkako yesterday at 08:54

Сомневаюсь, что мышление человека, его аналитический потенциал, его когнитивные способности и все прочее можно свести сугубо к процессу статистического предсказания. По крайней мере в форме, которая +- отражает принципы работы любой LLM. И обозначенная в статье проблема, на мой взгляд, как раз ярко это и отражает. Человек, например, может и пользоваться своими "эвристиками" для какого-нибудь грубого расчета, но, в отличии от той же LLM, может создать или освоить и применить точный и полный алгоритм решения, который не сводится к каким-либо статистическим эвристикам.

ysrgsyn May 8 at 11:26

Это как уверенный двоечник у доски: вычисления наугад, но с убедительно серьезным лицом))

ArtyomOchkin May 8 at 11:41

Сейчас, как понимаю, большая часть нейросетей, включая ChatGPT vs Qwen, используют простейшие python-команды для получения верного ответа.

Прямо сейчас попробовал забить простейший пример 8.8 - 8.11 =,и он теперь даже даёт окно классического калькулятора. Компонент "ChatGPT instruments". Claude и Qwen также используют bash-команды при создании файлов, а также python для быстрой проверки и решения типичных арифметических действий.

В примере из статьи, как я понимаю, что-то средней свежести, ChatGPT 3.x или 4.х. Тогда, получается, модель не применяла для проверки инструменты, а лишь "рассуждала", как в задачах на логику или творческих задачах.

Новый способ, имхо, эффективнее, он может помочь посчитать что-то крупное и сложное, но при этом быстрее, чем вручную, и с достаточной надёжностью, нежели с более старыми нейросетевыми моделями.

ITDiver77 May 8 at 17:02

Именно, статья устарела года на полтора. Равно как и методика "думай по шагам"

wataru May 8 at 17:35

Было исследование, что какую-то сетку обучали использовать встроенный инструмент - калькулятор - для вычисления. Факт запуска калькулятора был в целевой функции. Поэтому, по классике машин-лернинга, сетка соптимизировала целевую функцию и стала запускать калькулятор даже там где вообще ничего считать не надо. Просто выполняла какие-то вычисления в фоне и игнорировала их.

nakesreong May 8 at 22:13

это по классике РЛ (реинфорсмент лернинга) уже на самом деле, а не машин лернинга как такового, - прозвенел звонок и ~~весь класс подорвался на выход~~ (~~звонок для учителя!~~) слюна у собачки побежала ))

это кстати вот явный механизм биологических разумных систем имеющих мозг и внутреннюю систему награждения, которую можно настроить ) которую тупо скопипастили )

ItAi May 8 at 12:15

Если математика внешняя сторона жизни для людей, то для моделей внутренняя? Выходит что мысль имеет математический паттерн, который модель и применяет. То есть существует какое-то слово или термин пусть ещё не известное человечеству, то модель уже знает как оно будет звучать заранее.

phenik May 8 at 14:15

Уже было.

rikert May 8 at 14:47

Почему человек умеет думать, но не каждый решает математические задачи. Перефразирую.

Neon7Blade May 8 at 19:45

Ну и почему? Зато могу с уверенностью сказать, что ии ответит на этот вопрос самым наибанальнейшим образом - все что нужно об этом гении знать.

nordwind May 8 at 15:46

Может быть для таких случаев нужно/можно калькулятор вызывать?

it-infinite May 8 at 23:27

Оно работет тупо из-за точной логики цифр. Если вы помер напишите словами, оеа его не решит. Почему? Потому что у слов могут быть разные значения. У цир оно всегда одно! Если это 5, то это 5 всегда. А со словами не так. Пожтому модель тупо точнее находит ответ.

Аналогично точно работает и булева алгебра.

LLM ничего не считает. Просто якоря и фокусы максимально точные, логичны. Поэтому и ответы точные. Обучите LLM только еа тексте и оно ничего не решит… Или дайте минимум математики…

Если запустить средней сложности пример раз 10, есть боььгая вероятность ошибки. Если простой, то шанс ошибки почти нулевой ибо чистота логического смысла очень высока.

Вот и вся магия!

Я так 25000 токенов поместил в 327, и LLM прекрасно понимало о чем был разговор в тех 25к. Как это сработало? Ровно так как я описал выше. А не “оно думает!”… 😁

naklikal yesterday at 09:40

Можно ли сказать, что школьная библиотека умнее пятиклассника? По объему знаний - наверняка. Точно так и большие языковые модели. Конечно по такому принципу они умнее 99% людей. Им же скормили все до чего смогли дотянуться создатели нейронок. А это много библиотек.

Но умение правильно (мне больше нравится слово "правдоподобно") предсказывать информацию еще ума не показывает.

AAlx0451 15 hours ago

Баян