Комментарии 49
О, вот так открытие. Генератор текста, оказывается, не умеет думать.
А за пост спасибо.
Заголовок ложный, фундаментальные ограничения не показаны.
А «думать», это что значит? Чем конкретно отличается от предсказания следующего слова или образа?
Конкретно, например, тем, что для думанья слова не нужны, что можно видеть на примере животных.
Не обязательны, да. Обязательно думать без слов - нет. Люди минусуют эмоционально, но конкретного понимания, что такое «думать», у нас нет. Может быть LLM действительно фундаментально не может что-то, что не может человек, но этого пока никто не доказал (в научном смысле).
В исходной статье показано, что сложность задач быстро растёт и без декомпозиции размер LLM тоже должен расти. Разве это значит, что декомпозировать нельзя? Нет.
Фундаментально LLM не может ничего, что не сводится к обмену словами, по определению.
Школьная математика сводится к символьным преобразованием. Кажется не проблема делать их в рассуждении словами. Нужна будет арифметика в пределах однозначных чисел.
Школьная математика сводится к символьным преобразованиям и стоящей за этими символами не отражаемой на письме семантике.
Конкретно школьную математику можно выразить чисто синтаксически, как делается у Бурбаков и в лямбда-исчислении, но это далеко выходит и за рамки школьного курса, и за принципы работы LLM. Примерно в этом духе работает символический ИИ.
Вообще то есть понимание что такое думать. Это у вас его нет. Да, с помощью слов люди стали лучшее запоминать и оперировать информацией. Но мы отличаемся тем что мы анализируем варианты все, на основе полученных данных, мы можем выбрать даже не самый вероятный вариант, или оценивать каждый что есть, и строить длинные логические цепи и рассуждения. А llm просто генерирует наиболее вероятные слова исходя из обучения. Там нет интеллекта. Это буквально генератор вероятных слов.
А ризонинг модели просто "расписывают" сами себе решение, добавляя токенок, чтобы сдвинуться в поле той области где возможно правильный ответ, потому что часто бывает что в 2-3 предложения не выйти на верный ответ.
Минуточку!(с). Все же у Вас информация и "объективная реальность, данная нам в ощущениях" первична и она уже облачена в абстракции слов. Вы, думая абстракциями, скорее всего думаете не о словах, а об конкретных вещах, выраженных в словах, а LLM условно не "знает" о существовании мира вещей. Она знает о статистическом взаимодействии слов в мире слов между собой.
Но как видно, вероятность слова сильно зависит от входящей информации, а не просто частоты встречи во всех книгах.
Сильно зависит. Но проблема в том, что это корреляция с третьим фактором (собственно мышлением), а не причинно-следственная связь.
Как тут верно заметил (но в неправильном контексте) товарищ ниже, если человеку уронить батарею на ногу, то его слова достоверно предсказать очень нетрудно. Но вот что он подумает и сделает в связи с этим – совершенно неясно.
А llm просто генерирует наиболее вероятные слова исходя из обучения
А вы действуете как-то иначе?
Это называется "довербальные понятия".
Вы несколько неправы - для высшей нервной деятельности (2 сигнальная система по Павлову) нужны слова. Как только появилась речь человек стал разумным.
2 сигнальная система – это и есть слова. Но она не нужна для мышления, о чём я и писал. Может быть, собака и не разумна, но она вполне способна целенаправленно мыслить в определённых пределах, и делает это без всяких слов. Точно так же и человеку не нужны слова для размышлений на уровне 1 сигнальной системы, которая является основой и большей частью функций его мозга. А у LLM 1 сигнальной системы нет, поэтому всё, что он делает – жалкое подражание базе (а если совсем точно – жалкое подражание словесному описанию базы) при помощи надстройки.
На мой взгляд, в принципе, нет ничего, что мешало бы очень умной собаке решить задачу Эйнштейна, не пользуясь словами или иной символической записью. И совершенно точно задачу Эйнштейна решает плёвая программа из 10 строк на Прологе, не пользуясь манипуляциями со словами в духе нейросетевого ИИ.
А если эту программу написала llm?
Может собаке и не нужно, но без абстрагирования, без кодирования мыслей словами, ни одна собака открытия не сделает и даже простой математической операции не выполнит. Пример детей-Маугли очень показателен.
Математическую операцию, конечно, невозможно сделать без кодирования мыслей символами (я бы не говорил тут именно о словах), потому что математика – это по определению и есть манипуляция символами. Хотя, например, сложение возможно выполнить без символов, и высшие животные вроде ворон успешно с этим справляются для небольших чисел, но уже умножение имеет символическую природу.
Однако насчёт открытий я бы поспорил.
Во-первых, открытие в принципе можно сделать и просто как феномен ощущаемого мира, его не обязательно для этого кодировать.
Во-вторых, делает ли LLM открытия? Точно нет. Хотя вообще ИИ давно умеет делать открытия, но всё это происходит на символическом, а не коннективистском направлении.
О, вот так открытие. Генератор текста, оказывается, не умеет думать.
Но, маркетологи его впаривают как думающий.
Он просто найдет в интернете ответ на эту задачу и выдаст пользователь как свой.
Обнаружение этих ограничений стало возможным благодаря широким возможностям самих LLM в обработке естественного языка
Да неужели.
Может быть, если бы функционеры генеративного ИИ не были так заняты продавливанием через американское и европейские правительства запрещения финансирования в области символического искусственного интеллекта и продукционного вывода, то прочли бы этом в какой-нибудь книжке эдак 1970 года.
Вот бы название книжки и страницу, не правда ли? Насколько было бы проще.
Что за "запрещения финансирования символического ИИ"? Скиньте ссылку пожалуйста
https://en.wikipedia.org/wiki/Symbolic_artificial_intelligence#Controversies
Since then, his anti-symbolic campaign has only increased in intensity. In 2016, Yann LeCun, Bengio, and Hinton wrote a manifesto for deep learning in one of science's most important journals, Nature. It closed with a direct attack on symbol manipulation, calling not for reconciliation but for outright replacement. Later, Hinton told a gathering of European Union leaders that investing any further money in symbol-manipulating approaches was "a huge mistake," likening it to investing in internal combustion engines in the era of electric cars.[98]
В комментариях там пишут, что Deepseek R1 задачку расколол с первого захода, так что насчёт "фундаментальности" ограничений большой вопрос.
DS начинант ответ словами:
"Для решения этой задачи, известной как "загадка Эйнштейна", мы будем использовать метод логического анализа и составления таблицы, чтобы систематизировать информацию. Постепенно заполняя таблицу, мы сможем определить, кто пьёт воду и кто держит зебру"
То есть, можно предположить, что он знаком с задачей, так как она была в обучающем датасете, а значит ему не требуется "думать" при поиске решения.
Возможно. Для проверки надо переформулировать и подсунуть ещё раз, станет понятно, табличный метод в рассуждениях используется или ответ в выборке есть.
Ну если он знает, что она называется "задача Эйнштейна", то знает и готовый ответ или схему его получения.
Попробовал поменять все сущности, перетосавать порядок и не упоминать нигде Эйнштейна. Но сами зависимости оставил теми же:
- There are five cafes .
- Kombucha is drunk in the middle cafe.
- Horrors are watched in the cafe next to the cafe where the diapers are wear.
- The curvy man drinks beer.
- The dwarf eats next to the food track.
- Horrors are watched in the roof top.
- The haired man wear the tie.
- The man who watches Comedies eats in the cafe next to the man with the earring.
- The dwarf eats in the first cafe.
- The TV Show watcher wear tiara.
- The elf watches documentaries.
- The bald man eats in the vegan cafe.
- The opera watcher drinks tequila.
- The bistro is immediately to the right of the restaurant.
- Vodka is drunk in the bistro.
Ok, so tell me who drinks wine and who wear the pants?
Итого:
DeepSeek R1: Думал 405 секунд и провалил задание:

ChatGPT o3-mini-high: Справился за 90 секунд

Полный лог: https://chatgpt.com/share/67a50510-2f60-8011-9fa5-dbe3bbdf70f7
Claude 3.5 Sonnet + sequentialthinking: Провалил но нарисовал красивую диаграмку.

Надо бы теперь попробовать с матрицей побольше. скажем 7х7
Например, GPT-4 правильно умножает два трёхзначных числа только в 59% случаев, а два четырёхзначных — всего в 4%
Эта конкретная задача решается правильным заданием промта. Я попробовал перемножать 4-значные числа в Copilot, он всё время лажал. Потом подобрал нужный промт, и получил 100% результат на нескольких примерах.
Представь, что ты учитель математики в начальной школе. Как правильно умножить числа 5263 и 1674 в уме? Объясни по шагам, как можно подробнее, чтобы любой школьник мог это понять. Чем больше шагов получится в объяснении, тем лучше.
Привет! Сегодня мы научимся умножать два больших числа 5263 и 1674, используя метод длинного умножения. Это довольно трудоемкий процесс, но я постараюсь объяснить его шаг за шагом так, чтобы было понятно каждому школьнику.
Разложение чисел по разрядам: Давайте разложим каждое число на разряды:
5263: 5000+200+60+3
1674: 1000+600+70+4
Умножение каждого разряда: Теперь начнем умножать каждое слагаемое одного числа на каждое слагаемое другого числа. Мы сделаем это поочередно для каждого слагаемого первого числа:
5000 (из числа 5263) умножаем на каждое слагаемое числа 1674:
5000×1000=5000000
5000×600=3000000
5000×70=350000
5000×4=20000
200 (из числа 5263) умножаем на каждое слагаемое числа 1674:
200×1000=200000
200×600=120000
200×70=14000
200×4=800
60 (из числа 5263) умножаем на каждое слагаемое числа 1674:
60×1000=60000
60×600=36000
60×70=4200
60×4=240
3 (из числа 5263) умножаем на каждое слагаемое числа 1674:
3×1000=3000
3×600=1800
3×70=210
3×4=12
Сложение всех произведений: Теперь мы должны сложить все полученные результаты:
5000000+3000000+350000+20000+200000+120000+14000+800+60000+36000+4200+240+3000+1800+210+12
Пошаговое сложение:
Сначала сложим большие числа:
5000000+3000000=8000000
8000000+350000=8350000
8350000+20000=8370000
8370000+200000=8570000
8570000+120000=8690000
8690000+14000=8704000
8704000+800=8704800
8704800+60000=8764800
8764800+36000=8800800
8800800+4200=8805000
8805000+240=8805240
8805240+3000=8808240
8808240+1800=8810040
8810040+210=8810250
8810250+12=8810262
Таким образом, результат умножения чисел 5263 и 1674 равен 8810262.
Даже дистиллированная локальная DeepSeek R1 32B с квантованными параметрами была близка к правильному ответу. Но всё же допускала ошибку в 1 сложении, так что незачёт. Интересно, что обдумывала решение она на английском, писала ответ на русском, потом вставила польское слово, и дальше перешла на украинский. :) Т.е. для LLM вообще нет разницы, на каком языке вести общение. Если в процессе квантизации пропали нужные слова, она легко переходит на другой язык.
Проблема не в том что LLM не может перемножить два 4-значных числа в уме, а в том что она выдаёт неверный результат вместо того воспользоваться калькулятором или предложить это пользователю.
А в целом да, нашли ещё один класс задач с которыми модели пока справляются не очень хорошо, хотя и гораздо лучше среднестатистического человека. Повод заявить в очередной раз, что "LLM не могут думать потому что они T9". Нынешними темпами, через 3-6 месяцев и это "фундаментальное ограничение" будет преодолено, придётся искать что-то другое.
Читаешь немогликов и удивляешься суждениям, что вот мол, ллм это генератор текста и нихрена не думает,а вот мы-то ... и пошел пафос
Мы-то ... а мы-то "думая" сильно много креатива надумываем? Пришел домой, жена, где суп? Творческая мысль, однако. Сын, тащи дневник. А там двойка. Как же догадаться, какую последовательность слов сгенерирует батя? Да ни в жизнь же не ... А на работе иначе? Да точно такие же генерации в 99% времени, а тот один процент типа творчества, так это уже придумано до нас просто мы не в курсе, переизобрели заново. Или пересобрали.
Почитаешь, эйнштейны через одного, а спроси что ты такого эдакого придумал,что не есть перекомпиляция известного, так никто и не вспомнит.
Остается радость меряться качеством перекомпилятора, наш-то пока менее глюкавый будет! Эвон как ловко сестер алисы считаем, круть! С шахматами и го незадача, мда, но это другое!
Снобизм чистой воды. Напоминает шахматиста-разрядника, шпыняющего 80826 оливетти или какая она там была, подзабыл.
Про тест уже все стыдливо забыли. Сейчас с роботом день общаться можно и не поймешь человек там или железо
Словил себя на мысли что и ответ Вам тоже уже был придуман раньше другими:
https://youtu.be/Md-hp4ddvkM
Как же догадаться, какую последовательность слов сгенерирует батя?
Батя отличается от LLM именно тем, что генерация последовательности слов не является основным результатом его мыслительной деятельности в данном случае.
Сейчас с роботом день общаться можно и не поймешь человек там или железо
Сочувствую.
Из ответа ясно, что уж вы-то на раз-два отличите бездушную ллм от речей творца.
А каков основной результат деятельности среднего бати, по которому его записывают в разумные? Умеет пить кофе? Рассуждает о политике? Водит аатомобиль?
Ну вот оно уже рассуждает о политике, водит автомобиль, может пролить кофе. Батя на минималках )
Из ответа ясно, что уж вы-то на раз-два отличите бездушную ллм от речей творца
Ясное дело.
А каков основной результат деятельности среднего бати, по которому его записывают в разумные? Умеет пить кофе? Рассуждает о политике? Водит аатомобиль?
Результат его деятельности, очевидно, в том, что он воспитывает сына. А не рассуждает.
Тут до разумного ещё как до луны, для начала надо до целенаправленного дослужиться.
водит автомобиль
LLM-то?!
Да уж ладно там, как до луны. Пафос так и выглядит.
Уйма народа уже воспитана телевизором или смартфоном. Результат не айс? Ну так и с батей результат бывает не айс.
По факту ребенка воспитывает двор и школа, где он проводит львиную долю времени, а бати иногда нет вовсе или присутствует факультативно.
Сейчас роль школы, двора и компашки стремительным домкратом переходит к гаджетам и роботам, хотим мы этого или нет. Да уже, считай, перешла, достаточно посмотреть сколько ребенок зависает в смартфоне, и сколько общается с батей.
Так что поколение хомосапиенсов, воспитанное железяками, УЖЕ РАСТЕТ, а разумность - вопрос философский и через считанное число лет даже в лупу не отличишь где там человек, где ЛЛМ нагенерила
Я думаю ,с появлением больших мозговых моделей все уладится.
ИИ это крутой инструмент, в разных руках он дает разные результаты.
Для преодоления таких ограничений LLM придумали концепцию пространственного ИИ ( модели мира, world model)
Архитектура чат-ботов столкнулась с фундаментальными ограничениями