Search
Write a publication
Pull to refresh

Comments 61

Ведущие когнитивисты, работающих в области ИИ, не упомянутые в Вашей статье, сходятся во мнении:
"Современные LLM - это статистические аппроксиматоры языка, а не модели человеческого разума. Они не обладают абстракцией, аналогией, каузальным мышлением, теорией ума, рефлексией или социальным контекстом - всем тем, что составляет суть человеческого интеллекта."

Выводы учёных:

Gary Marcus (Wiki) - LLM - "стохастические попугаи", не понимают смысла. LLM не обладают символической обработкой, необходимой для настоящего рассуждения
Yoshua Bengio (Wiki) - критикует трансформеры за отсутствие каузального мышления.
Joshua Tenenbaum (Wiki) - разрабатывает Bayesian models of cognition, которые могут делать выводы из 1–2 примеров (one-shot learning)
Leslie Glick and Douglas R. Hofstadter (pdf) - LLM делают поверхностные ассоциации, но не структурные отображения
Rebecca Saxe (Wiki) - LLM не понимают, что другие могут верить во что-то ложное

Буквально весь список - клоунада. Сходу:

  • Gary Marcus - уже слился. Он как раз выкатил недавно заяву: "Python символьный, значит, LLM с интерпретатором Python это нейросимвольный ИИ - а так как LLM с Python может больше чем LLM без Python, то все мои идеи про нейросимвольный ИИ верны".

    • Первые кривые прототипы языковых моделей для написания кода в OpenAI и Anthropic делали как бы не в 2020 году, и function calling в 2022 году. Получается, всё это время они работали в правильном направлении.

  • Yoshua Bengio - приветик из 2015 года. Информация, устаревшая до невозможности.

    • Causal reasoning в современных LLM есть, и измеряется бенчмарками - ощутимо выше случайного начиная где-то с GPT-3. Производительности передовых LLM уже хватает чтобы порвать нетренированного мясного мешка на тряпочки. О том, чтобы кто-то специально обучал передовые LLM задачам causal reasoning через RLVR, я не слышал - так что потенциал далеко не исчерпан.

  • Rebecca Saxe - ещё один приветик из 2015 года. Потому что "понимать, что другие могут верить во что-то ложное" - это задача "theory of mind", подкатегория "false belief".

В сумме это прям классический артефакт мясного мышления.

"Если игнорировать все достижения LLM, искать и слушать всех критиков LLM когда они говорят плохие вещи про LLM, и оперировать вхламину устаревшей информацией, то LLM сосут."

Ваше замечание игнорирует главную мысль статьи Гэри Маркуса и критику архитектуры LLM. Дело не в том, что «LLM + Python = победа нейросимволизма», а в том, что интеграция символических инструментов - это признание фундаментальных ограничений чисто нейросетевых моделей.

Как показано в анализе трансформеров, они систематически проваливаются в задачах, требующих:

  • логической инверсии («проклятие инверсии»);

  • устойчивости к переформулировке;

  • абстрактного рассуждения,

  • внутреннего представления мира.

Эти ошибки не случайны. Они следуют из архитектуры, построенной на парадигме обработки входного сигнала (перцептрон, Шеннон), которая устарела с точки зрения современной когнитивной науки. В отличие от человека, который конструирует предиктивные модели (Найсер, Фристон, Хоффман), LLM реагируют на поверхностную структуру промта, что делает их уязвимыми к нерелевантным словам и формулировкам.

Маркус не «слился». Он констатирует: ведущие компании: OpenAI, xAI, DeepMind - фактически отказались от чистого масштабирования, внедряя символические компоненты (Python, search, rule-based augmentation). Это не подтверждение силы LLM, а доказательство их когнитивной неполноценности и случайное оправдание нейросимвольного подхода, который он защищает с 1990-х.

Главный тезис: "Нейросети не могут обойтись без явного представления знаний, абстракций и логики."

Это и есть путь к более надёжному, интерпретируемому и когнитивно валидному ИИ.

Каждый раз, когда мясной мешок говорит что-то вроде "LLM, в отличии от человека...", природа делает опровержение в виде ещё более тупого человека.

Не надо переоценивать мясных мешков. Человек слаб и глуп.

Ошибки, которые совершают LLM, до смешного человекоподобны. От задачи про килограмм пуха и до задачи про возраст капитана - рассуждения LLM очень любят ломаться в тех же точках, в которых ломаются люди.

Причина, по которым reasoning-модели на таких задачах резко растут в производительности, в том, что ИИ рассматривает проблему более детально, и замечает подвох. Примерно как люди.

LLM слабы и глупы. Но производительность ИИ быстро растёт. В отличии от производительности среднего мясного мешка.

Дабы поддерживать свой английский и развивать словарный запас, я много контента на ютубе смотрю на английском. Разумеется, что именно смотреть я выбираю из своих предпочтений. Кроме прочего, в список регулярных тем попали различные дебаты, в основном ученых и разного рода креационистов, либо (реже) других отрицателей науки и прочих диссидентов. Подкасты, куда попадают самые различные люди, как ученые, так и всякие уфологи, и даже изобретатели новой математики. Подкасты, куда верующие разных мастей звонят, чтобы обосновать свои религиозные взгляды богомерзким атеистам-скептикам, к которым и я себя причисляю. Живое общение особенно полезно для обучения живому общению, потому что наш мозг - это стохастический попугай, мы учимся повторяя и имитируя.. Да, но основная мысль не в этом. Просто хотел согласиться насчет еще более тупых людей. Их есть в популяции, боюсь куда больше, чем нужно для опровержения тупых ллм. Они даже книги пишут и целые институты открывают. Есть институт "научного креационизма", как он точно называется можно загуглить. А, к слову, какой-то христианский сайт запустил ИИ-апологета, с которым можно общаться, он будет обосновывать все что в библии написано. Правда он в основном кругами ходит, а когда его приводишь к противоречию, он просто выбирает один из вариантов и игнорирует второй. Такую лоботомию неприятно наблюдать даже у ИИ. Отдельно скажу про видео, где один из амбассадоров сообщества плоскоземельщиков пытался убедить чат жпт, что земля плоская, космос - фейк ну и далее по списку. Это настоящий шедевр. ЖПТ с честью выдержал испытание, обосновывая школьную физику с геометрией половозрелому хомо сапиенсу с интеллектом уровня черепашки из Марио.

В начале статьи "даже гугл советует не доверять ответам ии" меня застукало врасплох, чуть не поперхнулся кофе. А людям, значит, можно доверять? Или в чем аргумент? Один этот пассаж в статье четко дает понять, что мышление - не самая сильная человеческая сторона. Конечно ллм доверять нельзя, доверие вообще пагубно. Но людям куда меньше доверия. Я бы посмотрел на честные соревнования авторов таких статей с передовыми моделями в любой интеллектуальной сфере на их выбор.

Что вы имеете ввиду под интеллектуальной сферой?

"Теория ума" ("Theory of Mind") - это не способность пройти тест на "false belief", а "способность строить устойчивые, обобщаемые модели чужих убеждений", которые могут быть проверены в новых, незнакомых контекстах. LLM показывают высокие результаты в некоторых (!) ToM-задачах. Но это не "понимание", а статистическая интерполяция. Как показано в анализе трансформеров, их ответы меняются при "перефразировке", они не "обобщают" на новые сценарии и не могут модифицировать модель при конфликте с ожиданием, что является сутью когнитивного процесса.

На конференции "CogSci 2024" Сакс представила исследование, сравнивающее детей, взрослых и LLM в задачах на "false belief" с "новыми, нестандартными сюжетами". Она показала: "Где дети 4–5 лет справляются с обобщением с первого раза, там LLM проваливаются, если сценарий не совпадает с обучающими данными."

"If a system can’t apply the principle of false belief to a story it’s never seen, it doesn’t have a theory of mind. It has a database of examples." (Rebecca Saxe, CogSci 2024 (pdf, page 47, T.28))

Это не мышление - это "воспроизведение паттернов". У LLM нет "внутренней модели чужого сознания", только статистическая корреляция слов. Они не предсказывают поведение из убеждения, они выбирают наиболее вероятную последовательность. Более того, ToM у человека развивается не из текста, а из "совместного внимания" ("joint attention") и "социального взаимодействия". У LLM этого нет. Они обучаются на "пассивных, деанонимизированных текстах", лишённых контекста и намеренности. То, что GPT-4 "проходит" ToM-тесты - это не доказательство интеллекта, а "артефакт утечки данных" ("data leakage").

Сакс не "приветик из 2015". Она исследователь, которая показывает: "понимание разума требует не данных, а архитектуры, способной к построению и проверке ментальных моделей". Этого у трансформеров нет. И пока они не перестанут быть чёрными ящиками, реагирующими на слова, а не на смысл, они не приблизятся к настоящему социальному интеллекту.

"Интеллект, включая ToM - это не предсказание текста, а построение модели мира и других разумов."

Ну да, когда человек прокалывается в незнакомых задачах, то это просто честная человеческая ошибка. А когда это делает LLM, то это мышление у LLM ненастоящее.

Больше копиума занюхивай, мешок с мясом.

"Где дети 4–5 лет справляются с обобщением с первого раза, там LLM проваливаются, если сценарий не совпадает с обучающими данными." - как я понял из этой цитаты, LLM стабильно прокалывается там, где человек прокалывается редко.

Что бы заставить модели мыслить как люди, нужно их запрограммировать на такое. Но вот только беда, природа стерла это алгоритм для нас. Да и людей в мире миллиарды и каждый мыслит по своему же.

Вы правы, природа не оставила нам готового алгоритма. Но учёные уже реконструируют ключевые принципы человеческого мышления: аналогию, абстракцию, причинность, предиктивное моделирование. И они уже строят системы, которые мыслят не как статистические попугаи, а как дети, учёные, математики. Мы не копируем миллиарды вариантов мышления - мы ищем универсальные когнитивные законы. И, как показывает статья, именно понимание ошибок LLM - путь к новой архитектуре. Будущее ИИ, не в масштабировании данных, а в возвращении к когнитивной науке.

Такие системы сейчас разрабатываются в:

  • MIT Cognitive Science Lab (Tenenbaum, Saxe);

  • CIFAR’s Learning in Machines & Brains (Bengio, Friston);

  • и других

Очередное спинномозговое "LLM не могут Х". Где Х - это что-то, что LLM на самом деле могут, но слабо.

Мясные мешки, как это часто бывает, занюхивают копиум - и с отчаянием обречённого ищут причины, по которым очередная архитектура ИИ "не является настоящим интеллектом". Имя этого явления - AI effect. Явление известно, задокументировано, и это никак не мешает мясным мешкам совершать одну и ту же ошибку раз за разом.

Мешку с мясом хочется верить в собственную исключительность. Дефект мышления. Дефект неисправим.

Статья о "AI effect" в Википедии преувеличивает психологическую составляющую и игнорирует реальные когнитивные различия между имитацией и интеллектом. Она превращает серьёзную научную дискуссию в шутку: "AI - это то, что ещё не сделано". На самом деле, ведущие исследователи ИИ: Гэри Маркус, Йосси Перельман, Джошуа Тененбаум, Дуглас Хофштадтер, Ноам Хомский, Ребекка Сакс и другие - не отрицают прогресс, но настаивают: LLM не являются интеллектом, потому что они не понимают, не рассуждают, не обобщают, не имеют теории ума. Их критика - это не "эффект AI", а научный анализ архитектурных дефектов. И пока мы будем считать, что "если работает - значит умно", мы не придём к настоящему искусственному интеллекту.

Кто из ведущих исследователей ИИ критиковал "AI effect"?

Эти люди не философы, боящиеся машин, они конкретные учёные, их цитаты и позиции, где они прямо или косвенно отвергают "AI effect" как оправдание слабостей современных ИИ.

Интеллект - это не успешное выполнение задачи, а способность к абстракции, обобщению, рассуждению, пониманию контекста

Ж*па есть, а слова нет: пока моя Тесла лихо идёт на обгон, надиктую Вам сообщение:

Для того, чтобы вас лично заменила ИИ, ей не требуется думать как человек. Она будет думать по-другому. Более успешно в необходимой области (к примеру не станет копипастить сообщение как Вы)

К примеру, леопарду не нужно быть двуногим, чтобы обогнать человека.

И если вы думаете, что агентская система не сможет кардинально улучшить когнитивные функции, взгляните на муравьев, в чью честь даже алгоритмы ИИ называют.

Спасибо за яркую аналогию - вы правы: ИИ не обязан копировать человеческое мышление, чтобы быть эффективным. Леопард действительно бегает не как человек, а лучше, за счёт своей биомеханики. Но важно различать специализацию и интеллект. Статья же говорит не о том, что ИИ должен быть "как человек", а о том, что современные LLM страдают от фундаментальных когнитивных дефектов: они не могут рассуждать логически, делают разные выводы из одного и того же вопроса при перефразировке, не понимают обратимых отношений (например, "мать - сын"), и часто "галлюцинируют" (я называю правильно - делают ошибки).

И вот здесь уместна ваша аналогия с муравьями. Да, муравьи поразительный пример коллективного поведения, и вы совершенно правы: существуют алгоритмы ИИ, вдохновлённые ими, например, Ant Colony Optimization (ACO) (https://habr.com/ru/articles/163887/) и Swarm Intelligence (PSO) (https://habr.com/ru/articles/105639/). Это алгоритмы, которые решают задачи вроде поиска кратчайшего пути, имитируя, как муравьи оставляют феромоновые следы. Но важно понимать: у муравья нет мозга, как у человека - у него ганглии, простые нервные узлы. Их "интеллект" - это эмержентное свойство системы, а не признак глубокого понимания. Так и LLM: они могут имитировать интеллект, как муравьиная колония имитирует разум, но без внутренних моделей, абстракций и способности к рассуждению.

Поэтому вопрос не в том, сможет ли ИИ превзойти человека. А в том, превзойдёт ли он его в качестве надёжного, логичного, понимающего собеседника и агента или останется очень умным, но хрупким имитатором? Современные трансформеры эффективны в узких задачах, но их "мышление" легко "ломается" из-за лишнего слова в запросе. Нужна система, которая способная строить внутренние модели мира, как это делает человек.

Так что я с вами согласен: будущее — за системами, которые мыслят иначе.

Леопард действительно бегает не как человек, а лучше

Что-то мне кажется, что на марафонской дистанции леопард умрет.

Но до этого он успеет сожрать человека и бежать марафон смысла уже не будет

homo sapiens не зря придумали развлечение - толпой загонять зверя, а потом добить и съесть

Все-таки это нормальная научная работа. И есть работы, которые не находят каких-то признаков у LLM, но есть работы, что находят.

И, признаться, режет глаз тезис, что модели не поддерживают абстракции и не строят «модели мира». Как минимум есть работы показывающие обратное.

И, строго говоря, мы никуда не можем уйти от тезиса, что «имитация интеллекта» справедливо критикуется как довольно абстрактное понятие. Особенно, покуда мы не понимаем работу нашего интеллекта.

И, признаться, режет глаз тезис, что модели не поддерживают абстракции и не строят «модели мира». Как минимум есть работы показывающие обратное.

Разница имеется, и еще довольно большая. Например, в физической "модели мира". ЯМ обучают имеющейся информацией в сети + некоторые исправления от экспертов. Но равнозначно ли это физической "модели мира" человека? Нет, конечно, т.к. она совокупный результат 4 млрд. летнего эволюционного обучения методом проб и ошибок (есть даже такой взгляд, что не только отбором), передаваемого наследственно, эпигенетически, и путем социального обучения, который у человека проявляется, как имплицитное знание о мире, в частности, как "интуитивная" физика, которая связана с встроенным физическим "движком" (см. работы упомянутого Тэненбаума и его группы - 1, 2, 3), т.е. является активной, предсказательной, динамической способностью, в отличии от статической модели, построенной на не полных символических описаниях из сети. Естественно, и физическая "модель" мира человека иногда подводит, но она дополняется, надстраивается символическими уточнениями выработанными на практике, и в исследованиях. Это непрерывный процесс улучшений. Это пока не реализовано в текущих трансформерных ЯМ, включая агентах, и вряд будет пока не найдется адекватная архитектура, вероятно, нейроморфная и энергоэффективная.

Конкретный пример по абстракции чисел и операций с ними, еще по теме. Тоже для своего решения требует улучшений на уровне архитектуры, если хотим имитацию этих абстракций на уровне человека, без обращения к сторонним средствам.

Т.е. в обоих случаях, и модели мира, и абстракций, ЯМ имитируют возможности человека, но пока далеко не лучшим образом. Все рассказы, что не должны имитировать, потому что у ИИ свой путь развития - немешочый, будут иметь смысл только тогда, когда ЯМ достоверно превзойдут творческие способности этих мешков. Например, придумают и эмпирически проверят КТГ, как следующее расширение физической модели мира, так чтобы это было понятно мешкам, ну или хотя бы помогут мешкам создать такую теорию. Не зря же последнего нобеля по физике дали за работы по нейросетей) Может потом они могут пойти своим путем, творить для себя, и это уже может быть не понятным людям.

Особенно, покуда мы не понимаем работу нашего интеллекта.

Да, много чего не понимаем, но уже имеющегося задела достаточно, для инспирации разработчиков ИИ лет на сто вперед... если в теме достижений в когнитивных исследованиях. Заодно, что нибудь новое об интеллекте самих мешков узнаем)

LLM без костылей вообще мало что могут. Архитектура ChatGPT это уже давно не только LLM. Это и интергация со статическими базами фактов и с динамическими источниками вроде поиска в интернете или по локальным документам. Это куча вспомогательных вычислительных средств, которые расширяют очень грустные математические способности LLM. И, вероятно, еще куча разных проприетарных хаков и скрытых инструкций о которых мы не догадываемся.

На IMO 2025 произошёл казус. OpenAI и Google DeepMind там как раз выкатили системы на "голых" LLM.

Просто толстая стопка LLM, с жирным бюджетом компьюта. Без RAG, без поиска по интернету или локальным базам, без tool calling, без формальных пруверов. Условия, приближенные к человеческим.

Обе смогли закрыть 5/6 задач и получить золото. "Очень грустные математические способности", которые потихоньку приближаются к вершине человеческих.

"To make the most of the reasoning capabilities of Deep Think, we additionally trained this version of Gemini on novel reinforcement learning techniques that can leverage more multi-step reasoning, problem-solving and theorem-proving data. We also provided Gemini with access to a curated corpus of high-quality solutions to mathematics problems, and added some general hints and tips on how to approach IMO problems to its instructions."
И вручили воооооот такую шпоргалку по решению задач этой олимпиады ну так, на всякий случай.

Как будто участники олимпиады, сделанные из мяса, не тренируются решать математические задачи заранее, и не обладают никакими "general hints and tips on how to approach IMO problems".

Но мы то обсуждаем способность ЛЛМ без "аддонов" решать такие задачи, а не способность ЛЛМ с такой помощью решать школьные задачи повышеной сложности. Эта шпоргалка и есть локальная база, да еще и качественно подобраная человеком, чтобы решать конкретный класс задач на котром сеть будут "проверять". Без нее очевидно ожидаемый результат был очень грустным и не интересным в качестве пиара.

Я не отрицаю способность ЛЛМ с внешними костылями которые пристроил человек решать и более сложные задачи. Но Вы же говорите про способность ЛЛМ думать. Маловероятно, что эта способность появляется от добавления в систему поиска по интернету. Про такое "думание" и у школьниуов вам любой школьный учитель расскажет много хорошего.

Ну так я и говорю про мясных мешков и их желание сидеть на двух стульях сразу.

Тут выходит так, что либо LLM думают, либо большинство школьников думать неспособны.

Мы либо приписываем интеллект LLM, либо выписываем человеков из "разумных". Третьего не дано.

Кажется я лучше понииаю Вашу позицию, но тут проблема с моей точки зрения в системе координат. У нас нет эталонного теста на разумность, а только мешок из суррогатов. Школьники тестируются на одном наборе, ЛЛМ в основном на других, но иногда вот совпадают метрики. Но они очень несовершенны. И автор приводит примеры задач с которыми ЛЛМ фундаментально не справляются, а школьники (большинство, но не обязательно все) справились бы. Вы в свою очередь приводите в пример метрику по которой отличить ЛЛМ от школьника больше нельзя. Но это не отменяет существования тех по которым можно. И суть этих метрик врядли можно назвать тривиальной или несущественной. Поэтому пока, если верить сути цитируемх публикаций, нет проблемы двух стульев. Есть отличия и по этим отличиям пока можно считать, что ЛЛМ пока не умеют думать на уровне школьника.

Это по сути Вашего сравнения со школьниками.

А по сути моего утверждения, то оно все еще про чистые ЛЛМ без созданных человеком данных или систем. По этому определнию Ваш контрпример не подходит.

И суть статьи как я понимаю про то же - нам нужны альтернативы именно ЛЛМ чтобы улучшить результаты всей систесы в целом.

Чего вдруг без "аддонов"? Может вообще без обучения тогда будем сравнивать рандомные веса? Никакая шпаргалка не может включать в себя задачи, аналогичные задачам текущей олимпиады, иначе бы у всех были золотые медали в кармане. А умение обобщать и находить аналогии это именно то, за что человеческий разум ценится и некоторыми даже считается уникальным.

Потому что аддоны не часть ЛЛМ. Это внешние интерфейсы. Суть аргументации автора и цитируемых статей в том и состоит - ЛЛМ невозможно считать полноценной самодостатояной архитектурой, потому что ей требуются "аддоны" чтобы дойти в тестах на "спосбность думать" даже до уровня одаренного школьника. Поэтому предложено искать другие архитектуры, а не пытаться увеличить размер сети еще в 10, 100, 1000 раз.

Умение обощать и находить аналогии свойственно не только ЛЛМ. А вот отсутствие способности инвертировать отношения между объектами это дефект для устранения котрого и предложено искать альтернативы.

Что вы считаете LLM и что аддонами? Похоже, ваши представления сильно отличаются от общепринятых. Уже давно нет никаких чистых трансформеров. Почти все топовые модели это MoE, thinking, использование внешних инструментов, RAG, поиск в сети и наверняка куча всего еще. Это и имеют в виду под моделью, когда публикуют её карточку, а уж никак не транформер, предсказывающий следующий токен. А уж если систему на чём-то обучают, это никакой не аддон, это и есть самая что ни на есть суть модели. Никто не говорит, что у моделей нет недостатков и работа над новыми архитектурами вовсю ведётся, но пока и масштабирование с дополнительными инструментами неплохо себя показывает. И с помощью этих моделей будут разрабатываться новые.

Так эту модель и выкатили уже в общий доступ, ну, только на 250 долларов в месяц надо раскошелиться. То, что её обучали на математических задачах, так это ж не гарантия умения их решать и как раз и опровергает ваш тезис об их принципиальной неспособности "в математику". Обучали на математике, логике, на чём угодно. Так возьмите среднего человека, заставьте его изучить все математические задачи, сильно это ему поможет в решении очередной олимпиады? Ну, кому-то может поможет, но таких не очень много.

В цитате написано не то, что ее обучали на математике. Если бы все этим ограничивалось, то как раз было бы правильно. Там написано, однако, что обученой на чем-то еще сети дали для этой задачи базу даннных по математическим проблемам и дополнительные инструкции как отвечать на вопросы которые видимо составлял человекз, знающий как попасть в заветные топ 8% для получения золота.

Для сравнения в 2024 году те же компании выставили сеть которй для участия требовался человек-интерпретатор задачи в специальную нотацию которую видимо уже сеть может понять или скормить вспомогательному тулу или по которой можно найти данные в специализированной бд-шпоргалке. В этом году интерпретатор уже не потребовался, но думаю что суть поддержки, которую получает сеть "общего назначения", чтобы начать решать математические задачи можно оценить.

Математические задачи, и уж тем более олимпиадного уровня, это не ответ на вопрос, это длинная цепочка логических рассуждений. Если модель научилась их делать, так это уже не подгонка под тест, это именно развитие способности рассуждать и логического мышления.

Какая суть поддержки? В том-то и достижение, что уже не требуется посредник и специальная нотация, обычная foundation модель способна решать сложнейшие задачи.

Собственно как и человеческий ум, который у одних особей может ограничиваться скудной речевой болталкой, а может при помощи приобретенных знаний и прокачивания мыслительных навыков расширять изначально довольно грустные способности неразвитого ума.

Тут в целом стоит вопрос, а нужен ли нам настоящий ИИ? Вопрос в том что мы хотим создать эффективный инструмент для себя, или замену себе. Потому что текущая архитектура не заменяет человека, человек все еще нужен. А если создать полноценную модель интеллекта будет так же или нет?

Текущая архитектура, всего лишь мозг. Дайте этой архитектуре ручки и глазки, то во многих прикладных задачах она уже во многом обгонит человека.

Подходящие Ручки и глазки как раз этот год и пытаются найти: mcp, агенты, ...

Приделать руки-ноги к чему-то галюционирующему, не понятно до конца как работающему и пока вызывающему у ряда исследователей некоторые вопросы?
Отличный план, надежный, как европейские часы, чего уж там... Терминатор Вам улыбается и машет. Хотя тот и поумнее был, емнип. Но лиха беда начало.

Вы или крестик, или оденьтесь: так оказывается llm достаточно умна, чтобы вас захватить, как терминатор, или не следует опасаться, он же тупой. Биполярочка.

Исследования в статье уже давным-давно устарели. Сначала научились промптами от них просить думать и решать подобные задачки, потом выпустили LLM с думающим режимом, а теперь современные LLM и без думающего режима решают подобные задачки. А мелкие LLM могут решать гораздо более сложные задачи, потратив на раздумья десяток тысяч слов.

Плюс сами архитектуры меняются: после триумфального появления DeepSeek-R1, все больше и больше MOE моделей, ну и практически все большие современные, кроме самых маленьких, это MOE модели.

Почему люди пишут статьи на темы, в которых не только не разбираются совсем, но и которые им настолько неинтересны, что дико лень запустить какую-то LLM и самому проверить, а является ли правдой то, что ты пишешь?

Автор верно подметил что "интеллект" ллм'ок это лишь эмерджентное свойство системы

Понимания там нет

Вы говорите попробовать, я пробовал работать с ллм в фреймворке который она не знает

Пытался обучить, но ничего не вышло

Фреймворк $mol

Или более простой пример

Спрашиваю у ллм правила игры, конкретный кейс, со ссылками на источники обязательно для подтверждения

Первый раз - ответ да ты прав так можно

Второй - нет ты не прав на самом деле вот так

Третий, уточняю снова с официальными правилами - ну вот теперь то я понял ! (Не понял на самом деле ) - надо делать так то так то

Четвертый - нет я и ты был не прав надо было как в 1 варианте

В каждом ответе были ссылки на источники

А у человеков так не бывает?

Попробуйте взять человека, который не знает какой-то фреймворк и попросить результат. Можете даже попытаться обучить его, расскажете в скольки процентах у вас получится.

Первый раз - ответ да ты прав так можно

Второй - нет ты не прав на самом деле вот так

Третий, уточняю снова с официальными правилами - ну вот теперь то я понял ! (Не понял на самом деле ) - надо делать так то так то

Четвертый - нет я и ты был не прав надо было как в 1 варианте

В каждом ответе были ссылки на источники

И у вас у самого подобного поведения не было ни разу?

Так-то они и в тех фреймворках которые хорошо знают (но старые версии) тоже ошибаются и начинают косячить, очень помогает использование Context7 с актуальной информацией по различным версиям. Далее, prompt engineering это сильная вещь в которую надо уметь. Например, берем опенсорсный плагин к VS Code - Roo Code, он умеет задачу, которую вы ему даете разбивать на мелкие подзадачи и выполнять одну за другой. Заходим в настройки, открываем системный промпт, который добавляется к каждому запросу, и видим markdown текста на несколько килобайт. Комьюнити неоднократно пыталось его уменьшить, ибо все это съедает драгоценные токены, но результат всегда хуже. Я уже сам через чаты программерские задачки не даю, потому-что не умею в промпт инженеринг, а через Roo Code удается получать от них приемлемый для меня результат.

И у вас у самого подобного поведения не было ни разу?

Это, наверно, самая главная моя претензия к чатгпт и дипсику и основная причина, почему мне трудно добиться от них большой пользы: их ответы всегда уверенные, хотя очевидно, что какой-то вопрос они знают правильно, а в каком-то вопросе плавают. Я-то всегда могу оценить свою степень уверенности в решении и, если она недостаточно высокая, пойду искать и изучать дальше. Вот было бы так же в чатгпт - отображался бы рядом с ответом процент уверенности самой модели в его правильности.

Вы не опровергли тезис

У ллм нет понимания, у человека есть

Вы приехав в родной город можете конечно что то спутать , по вашей причине или на местности что то поменялось

Но у вас легко выйдет приспособится, изучить новое

Ллм так не умеют

...приспособится, изучить новое. Ллм так не умеют

Серьезно?

Да, очень советую в рамках диалога попробовать обучить ллмку какому нибудь фреймворку

Я пробовал с $mol'om

Тут еще бы определиться с термином "понимание". В вашем контексте это способность самообучаться. Ну тут да, у LLM пока таких способностей нет. Если вам нужно чтоб он умел из коробки $mol, вам надо его файнтюнить, но это очень ресурсоемкий процесс даже для маленьких моделей.

Можно попробовать взять модель с большим окном контекста, дать ему в одном промпте всю документацию по $mol с примерами использования, но на очень длинных контекстах модели начинают путаться. Да и дорогое это удовольствие будет, с каждым запросом давать столько инфы.

Пробовал тюнить, сложно это

Не вышло, к сожалению

Мне кажется проблему "галлюцинаций" моделей можно значительно уменьшить сочетая их работу с базой знаний. Что-то полезное в этом направлении можно, наверное, почерпнуть из предложенной Microsoft концепции внешних знаний KBLaM. В ней набор фактов структурирован как тройки, состоящие из сущности, свойства и значения. Сначала с помощью небольшой модели сырые данные преобразуются такие структуры в JSON формате. Затем они кластеризуются. И каждой тройке сопоставляются вектора ключ-значение. Вектор ключа, полученный из имени, сущности и свойства кодирует "индексную информацию", в то время как вектор значения фиксирует соответствующее значения свойства. Эти пары ключ-значение (токены знаний) дополняются в уровнях внимания модели с помощью специализированной прямоугольной структуры внимания. Языковые токены (например, из вопроса пользователя) относятся ко всем токенам знаний. Однако токены знаний не относятся друг к другу и не относятся к языковым токенам. Такая избирательность шаблона внимания значительно снижает вычислительные затраты, сохраняя при этом способность модели эффективно включать внешние знания.

Модель o3 уже это и делает при большинстве запросов. Лезет в сеть и проверяет информацию, давая сразу ссылку.

Концепция нейросетей была заложена в 50-х идеей перцептрона Ф. Розенблата и не учитывала тех достижений когнитивной психологии, которые появились позже. Это служит причиной самой большой проблемы трансформеров, называемой галлюцинациями. 

Такая странная фраза. Можно подумать, изобретай перцептрон сегодня, мы, вооружённые мегадостижениями когнитивной психологии, сделали бы что-то получше? И где перцептрон, а где трансформеры, которые как раз появились уже когда все эти мегадостижения (какие, кстати?) были известны.

Искусственные нейросети развиваются быстрее белковых. Вопрос времени, когда они обойдут человеков. А т.к. технологии по экспоненте, то это вопрос ближайшего будущего.

И когда Ии по го обыграл игроков, они говорили, что человек такое не придумает, что им вообще такое в голову не приходило. Так что то что люди не мыслят как ИИ, или что ии не мыслит как человек это может быть комплиментом. У ии нет(или их влияние резко меньше) когнитивных искажений, ии лучше работает со статистикой, люди же почти впритык ее не замечают, что было точно описано в книге Канемана. Наша нейронка обучалась в биологичных условиях и имеет кучу неточностей.

Нейрон у мухи дрозофила и нейрон у льва, или человека, это одинаковый нейрон. Да только если добавить побольше элементов, перерасставить их по особому и обучить, получается человек. Так и сейчас в ии нейронов все больше и методы их компоновки все эффективнее и так будет дальше, sky is no limited.

Сколько нейронов у современных моделей сложно сказать сходу, потому что в искусственных нейронных сетях это абстракция, а работа ведётся с матрицами весов, отражающих связи между слоями. Условно аналогами "нейронов" в них можно считать активации (выходы слоёв), например векторы в скрытых слоях модели. А число параметров, которыми характеризуют сложность модели - это приблизительный аналог связей между нейронами в биологическом мозгу.
Чтобы понимать разницу чисто количественно и приблизительно:
- число параметров самых современных и крупных моделей ИИ составляет 1-2 трлн.
- в мозгу среднестатистического человека таких связей порядка 100 трлн. Причём они постоянно обновляются в процессе приобретения жизненного опыта. А в модели ИИ - "застывают" после завершения цикла обучения, который очень затратен и по этой причине не может быть непрерывным.

"Только GPT-4 в некоторых случаях при пошаговом объяснении давает правильный ответ"?

А если по делу, отвечает примитивный бесплатный китайский дипсик:

У Пети братьев и сестер поровну, то есть количество его братьев (других мальчиков в семье) равно количеству его сестер (девочек в семье). Обозначим это количество как n, где n≥0.

Количество мальчиков в семье включает Петю и его братьев: 1+n. Количество девочек в семье равно n (сестры Пети).

Сравним количество мальчиков и девочек: 1+n>n для любого n≥0.

Таким образом, в семье всегда больше мальчиков (братьев), чем девочек (сестер), независимо от значения n.

Ответ: в семье больше братьев.

На вопрос про Алису с братьями и сестрами ДипСик тоже ответил верно.
ИИ-оптимистом меня это не сделало. К перспективам ИИ вырасти во что-то большое я отношусь сильно скептически.
Но тем не менее факт.

Я последнее время много играюсь с нейронками в попытках заставить их писать большой текст по сюжету. И в итоге очень заметны их внутренние проблемы.

Например, нейронки не понимают время. То есть они знают про его существование и учитывают, что какие-то вещи требуют определенного времени, но если давать в промте что-то не соответствующее привычной реальности - результат "ломается".

Например, если у нас типа фентези и герой получил рану - нейронка точно знает, что рану нельзя вылечить даже за день. И можно сколько угодно писать в промтах, что героя вылечили, что там магия - нейронка все равно будет упорно учитывать эту рану.

Вообще, я бы сказал, что там самая глобальная проблема в том, что нейросеть толком не отличает достоверную информацию от заведомо ложной. То есть это все как-то там учитывается, но, судя по всему, влияют просто различия объемов данных с корректной и ложной информацией при обучении. В итоге нейронка может на ровном месте выдать фигню, потому что где-то глубоко внутри для неё теория плоской земли такая же правда, как и про сферическую.

Я тоже с этим экспериментирую - пытаюсь обучить небольшую русско-английскую модель с нуля для написания длинных текстов по аннотации, названию, теме, плану, списку вопросов и т.д. Для этого учителями работают три модели: TinyLLaMA 1B и QWEN05B которые генерируют основной текст и YandexGPT Lite 8B которая формирует сжатую информацию (тема текста, ключевой вопрос и т.д.) для имитации вопросов пользователя. Русско-английский перевод делает моя модель-переводчик (https://huggingface.co/Vladniag/Requestor).
Обучается чистый декодер на 8 млн. параметров (размер модели в формате FP32 всего 26 Мб). На 436 эпохе обучения на одной NVIDIA 1080 пока что генерации получаются вот такими: https://disk.yandex.ru/i/Wx5k0rpgb_ryNQ

С длинными текстами проблема в том, что практически все бесплатные модели начинают глючить уже после 20 тыс токенов. Т.е. именно в режиме генерации текста по заданному сюжету.

Причем задать сразу весь сюжет тоже нельзя - там на выходе практически гарантированно будет не то, что хочется. А при разбивке сюжета на порции - на таком скромном объеме уже глюки...

И даже если отрезать начало - это порождает другую проблему, когда нейронка просто не в курсе что там было в вырезанном куске и не может это учесть при генерации. Краткий пересказ эту проблему тоже не сильно-то решает...

В общем, я бы сказал, что сейчас написать что-то длиннее рассказа или 4-5 глав текста нейронки просто не могут - им размеров контекста прям сильно не хватает.

И все эти вот нейронки где заявлено по 128к контекста и более - это не тот контекст, что нужен при генерации текстов. Они успешно отвечают на вопросы по таким длинным текстам - и это всё преимущество таких нейронок на данный момент.

Очень интересно как уважаемые Коллеги оценивают работы Anthropic по объяснимости результатов LLM, например при переводе с одного языка на другой или при написании стихов?

Sign up to leave a comment.

Articles