Обновить
12
12.1

Пользователь

Отправить сообщение

Вы говорите о памяти как о живой системе с маркером "Я", способной к самоподдержанию и рефлексии и это верно, именно так устроена человеческая память и системы вроде Soar или ACT-R. Но тогда нужно признать, что RAG не имеет к этому никакого отношения: это не память, а поиск по базе данных, где каждый фрагмент подставляется в контекст только если повезёт с релевантностью. Модель не помнит - она находит. И чем дальше во времени, тем выше шанс, что нужный след исчез из индекса, был перезаписан или просто не попал в окно. Это не воспоминание, а подборка цитат, и никакая "мини-модель" не превратит выжимку из прошлого в живую нить смысла.

В настоящих когнитивных архитектурах память не внешний модуль, а сама структура системы: декларативная, процедурная, рабочая и всё это работает как единое целое, используя всю доступную оперативную и долговременную память компьютера. Там можно вспоминать диалоги не только вчерашние, но и годичной давности, потому что опыт хранится не в виде чанков, а как часть внутреннего состояния, связанного с целями, обучением и эволюцией правил. Именно поэтому LLM с RAG - это не шаг к разуму, а временный костыль. Пока мы строим ИИ, где "Я" - это не процесс, а текст, подставленный извне, никакие квантовые чипы или вещества не создадут сознания. Сначала нужно научиться различать: что значит помнить - и что значит найти.

Поиск так и не починили :(

Делить ИИ на "матрёшку": "AI → ML → DL → LLM" - удобно, но обманчиво. Эти уровни относятся к разным категориям: AI - цель, ML - метод, DL - инструмент, LLM - конкретная реализация. Сравнивать их как вложенность - это всё равно что сказать: "транспорт → наземный → колёсный → красный". Формально логично, но по сути - путаница. LLM - не следующий этап эволюции ML, а радикальный поворот: от "обучения с учителем" к масштабной статистической генерации без понимания. И если мы хотим не имитацию, а настоящий интеллект, стоит помнить: не всякая глубина - это путь к разуму.

Вы правы, я действительно внимательно читаю ваши обзоры, потому что они затрагивают темы, важные для будущего ИИ и когнитивных наук.

Но когда вы пишете: "статистические ожидания ИИ удивительно хорошо отражают прогнозирующую стратегию работы мозга" - это уже не нейтральный пересказ, а интерпретация, которая выходит за рамки. Я не спорю с экспериментом, а спорю с тем, как его подают и что из него делают. Да, метрика BERT коррелирует с N400 - это интересный и ценный результат. Но если Вы называете это "мостом между нейронаукой и ИИ", то Вы не просто сообщаете - Вы формируете восприятие. А оно быстро превращается в: "LLM работает как мозг". Именно против этой "поэтизации данных" я и возражаю.

Я не утверждал, что авторы статьи антропоморфизируют BERT, а говорил, что интерпретация рискует ввести читателей в заблуждение, особенно тех, кто не разбирается в нейрофизиологии. Разница между "корреляция есть" и "принцип один и тот же" - огромна и учёный обзор обязан её сохранять.

Критика - это не признак непонимания, а признак вовлечённости. А игнорирование границ между корреляцией и механизмом - первый шаг к созданию мифов вместо науки.

Если мой комментарий Вам так заметен, то значит, он не был пустым.

И что, оценки предсказуемости слов от BERT согласуются с амплитудой N400 и предварительной активацией в мозге?! Это не доказывает, что мозг работает как LLM - это лишь говорит, что статистическая модель может аппроксимировать один из внешних эффектов нейрофизиологического процесса. Наличие корреляции - это не эквивалентность механизмов. Как и то, что камера фиксирует свет так же, как глаз, не делает её способной "видеть".

N400 - это не просто реакция на "неожиданное слово", а индикатор когнитивного напряжения, возникающего, когда входной сигнал конфликтует с внутренней моделью мира. У человека эта модель строится на опыте, эмоциях, контексте, теле, социальных целях. У LLM она вычисляется по текстовым паттернам, без понимания, без истории, без последствий. Когда человек ошибается в прогнозе, он перестраивает модель, учится, удивляется. LLM просто генерирует следующее слово и... всё забывает.

Главная разница - в желании. Человек слушает, потому что хочет понять, помочь, быть услышанным, узнать что-то важное. Его внимание, память, предсказание, они все подчинены внутреннему вектору смысла. У LLM нет ни цели, ни интереса, ни страха, ни радости. Она не "хочет" правильно ответить, она вообще ничего не может хотеть. Её поведение - это не проявление намерения, а воспроизведение статистики обучения. И пока мы не различаем реакцию и отклик, мы будем принимать имитацию за участие.

Поэтому говорить, что мозг и LLM работают по одному принципу, значит сводить живой когнитивный процесс к его "технической тени". Да, BERT помогает моделировать некоторые аспекты обработки речи. Но чтобы понять, как работает разум, нужно изучать не только корреляции в сигнале, а нейробиологию, нейродинамику, целеполагание и природу сознательного опыта, а об этом как раз в статье ничего и не сказано.

Сравнивать электросигналы в мозге и токены в нейросети, всё равно что сравнивать удар молотком по гвоздю и мыслить о строительстве дома. Да, оба события требуют энергии и происходят во времени. Но одно - следствие намерения, другое - его имитация.

У человека мысль, онтологически, первична, даже если она реализована через электрохимию. Она "организует" эти процесы вокруг смысла, цели, контекста. У LLM - токен первичен и все "картины", "логика", "понимание" - это производные от последовательности символов, а не наоборот. Модель не может хотеть сказать, она может только продолжить.

Сказки, которые хотят выдать за правду. Ох уж эти сказки. Ох, уж эти сказочники

Человек может выразить одну мысль голосом, жестом или текстом, так как мысль первична. LLM может использовать разные архитектуры: автогрегрессию или диффузию, но везде токены первичны.

И пока это так, говорить о равнозначных формах выражения одной "мысли", значит путать форму с содержанием.

Когда человек говорит слово, оно не появляется просто так, оно - конец длинной цепочки мыслей. Сначала возникает намерение: хочется что-то объяснить, спросить, поделиться чувством. Потом формируется смысловая картина: "что именно я хочу сказать". Это может быть образ, эмоция или логическая связь и всё это ещё без слов. Только потом мозг подбирает подходящие слова, строит фразу и произносит её. Слово здесь не цель, а инструмент.

В LLM же всё устроено наоборот. Там нет намерения, нет внутреннего опыта, нет желания донести смысл. У модели есть только один механизм - предсказать, какое слово наиболее вероятно после предыдущих. Она не "думает, чтобы сказать", она "говорит, потому что так написано в данных". Её слова рождаются не из мысли, а из статистики, как продолжение текстового паттерна, выученного на "триллионах" примеров. Даже в задачах, где кажется, что модель "понимает" другого, например, в тестах на Theory of Mind (ToM), то она не строит модель чужих убеждений, а воспроизводит шаблоны.

LLM показывают высокие результаты в некоторых (!) ToM-задачах. Но это не "понимание", а статистическая интерполяция. Как показано в анализе трансформеров, их ответы меняются при "перефразировке", они не "обобщают" новые сценарии и не могут модифицировать модель при конфликте с ожиданием, что является сутью когнитивного процесса.

На конференции "CogSci 2024" Сакс представила исследование, сравнивающее детей, взрослых и LLM в задачах на "false belief" с "новыми, нестандартными сюжетами". Она показала: "Где дети 4–5 лет справляются с обобщением с первого раза, там LLM проваливаются, если сценарий не совпадает с обучающими данными.". В этом году, MIT представил отчет, что ни одна LLM не прошла ToM. Максимальный результат - 46 ед. и это "стандартные" вопросы.

Поэтому, сравнивать эти процессы - это всё равно что сравнивать живую речь и запись автоответчика. Да, оба воспроизводят звуки. Но одно - проявление сознания, другое - реакция на сигнал. Мозг предсказывает слова, потому что "понимает мир" и "хочет общаться". LLM - потому что обучена на больших данных. Разница не в результате, а в источнике: один процесс начинается с мысли, то другой - с токенов. И пока существует пропасть между смыслом и статистикой, то говорить о единой природе интеллекта, как минимум - преждевременно.

А что? Уже появились специалисты в области ИИ? Пока я не видел таких. Мы все только учимся, делаем первые шаги в этой области. Каждый из нас Исследователь в теме ИИ, кто-то больше, кто-то меньше - Первопроходцы

Если мы говорим именно об "ИИ-ассистенте", а не о простом скриптовом боте, нельзя обходить стороной Theory of Mind (ToM) - способность моделировать знания, убеждения и намерения собеседника. Для человека это естественно: вы знаете, что клиент чего-то не знает, забыл или ошибся и соответственно строите речь. Для ИИ это не данность, а тестируемая когнитивная функция.

В контексте тестирования бота ToM означает (примеры):

  • может ли бот понять, что пользователь "ошибается", но при этом не осуждать, а мягко корректировать;

  • учитывает ли, что информация уже была предоставлена и не "спамят" ли её;

  • и т.д.

Без таких тестов даже технически безупречный бот будет восприниматься как механический, неспособный к диалогу. ToM не экзотика, а фундамент интеллектуального взаимодействия. И если мы называем систему "ИИ", то игнорировать данный тест - значит тестировать только "поверхность".

Мозг и LLM действительно оба "предсказывают следующее слово", но на этом сходство заканчивается. У мозга это часть predictive coding - всеобъемлющей нейрофизиологической стратегии: он строит внутреннюю модель мира, чтобы экономить ресурсы. Мало активируется в тот момент, если прогноз совпадает с реальностью. Это не просто предсказание текста - это прогноз звука, смысла, эмоции, последствий. LLM же делает лишь статистическую аппроксимацию на основе контекста, без понимания, цели или модели реальности. Он не "экономит усилия", не "удивляется", не перестраивает картину мира, а просто генерирует наиболее вероятный токен.

Сравнивать их - это всё равно что сказать: "человек и камера видят лицо - значит, восприятие устроено одинаково". Формально - да, оба фиксируют образ, но по сути - нет. Один понимает, кто перед ним, другой - сопоставляет пиксели. Так и здесь, сходство в поведении не означает общность механизма. Мозг предсказывает, чтобы жить эффективнее, LLM - чтобы выдать правдоподобный ответ.

Ошибка исследования в редукции сложной когнитивной теории к поверхностному эффекту. Да, нейрофизиология подтверждает предсказательную природу восприятия. Но из этого нельзя выводить, что LLM работает как мозг. Он может имитировать один аспект, но не воспроизводит ни целостности, ни смысла, ни адаптивной цели. Это не аналогия - это ложная эквивалентность на уровне формы без учёта сути.

Как много раз написано слово "ИИ" и ни разу слово "ToM" - это о чём то да говорит и еще в рамках тестирования?! Тихий ужас

P.S.: В теме ИИ и упустить тест ToM - это как дом построить без фундамента. Люди диссертации защищают по тому, как проводить тест; на конференциях целые дни посвящают этому тесту, а здесь всего 2 пункта

Если быть точней, то в моём понимании, "Вихрь" может работать со всеми системами, кроме замкнутых: когнитивных (Soar, ACT-R и др.) и логических, т.к. последние уже содержат внутри себя полный цикл восприятия, рассуждения и обучения. Любая попытка "навесить на них" внешние пульсары, GSV и арбитра приведёт не к усилению, а к дублированию функций, конфликтам между уровнями принятия решений.

Мы строим не интеллект, а пытаемся создать условия, в которых он мог бы появиться

Если этика только внешний регламент, то арбитр превращается в исполнителя, а не в субъекта выбора. Настоящий "внутренний закон" требует не просто следования правилам, а "взращивание" способности переживания конфликтов ценностей; осознания последствий выбора; создания принципов из опыта, как у человека. Возможно, путь к этому лежит не через жёсткое программирование морали, а через создание среды, где система сталкивается с этическим напряжением, фиксирует его как состояние (как "пульсар напряжения"). Со временем, формирует собственный характер, не копирует человеческую мораль, а создаёт её аналог. Тогда и арбитр станет не контролёром, а результатом долгого, сложного диалога с самим собой.

...система должна ориентироваться на энергию - где громче, туда и движется система

Но представьте: вы стоите на тротуаре и видите, как ребёнок выбегает прямо под идущую машину. Логика, расчёт, инстинкт, всё говорит: не лезь, это смерть. Но правильное решение - броситься вперёд, сбить его с пути, даже ценой своей жизни. Оно нерационально, не оптимально, не "энергетично", но оно единственно верное по сути.

Вот почему существуют два разных направления, LBS и CESP:

  • LBS будет искать "наиболее эффективный" отклик: закричать, замахать руками;

  • CESP может нарушить "свою модель поведения", потому что цель важнее "сохранения себя".

Если система не может сознательно пожертвовать собой ради формы, которую она защищает, значит, у неё нет арбитра, а есть только компромиссы. А иногда нужно не компромисс, а решение. И тогда без явного арбитра, способного сказать: "Я беру ответственность", не обойтись

Именно поэтому наша команда приступила к созданию гибрида LBS/CESP - чтобы объединить силу адаптации с возможностью настоящего выбора, где: LBS оптимизирует, CESP решает, а арбитр берёт на себя ответственность в тех случаях, когда логика бессильна, а этика требует жертвы. Ведь интеллект без морального компаса - это не разум, а просто очень "умный" инструмент.

GSV и STRAT пока абстрактны. SP управляет пластичностью, STRAT учится, но как именно? Если это просто таблицы решений или пороги - это адаптивность, а не обучение. Чтобы быть как Soar/ACT-R, нужно, чтобы система сама формировала правила, а не применяла готовые политики.

Сложность vs. надёжность. Чем больше механизмов, тем выше риск внутренних конфликтов: например, GSV говорит "быть смелее", а когерентность требует осторожности. Кто побеждает? Арбитр не определён

Может что-то "подсмотреть" из архитектур CLARION (система может оценивать, насколько она уверена) и/или ICARUS (память организована вокруг целей и их достижении)?!

Прекрасный ответ, но...:

1. Где гарантия, что "пульсары" - это не ещё один RAG? Если пульсары формируются на основе текущего контекста и LLM-интерпретации, то они могут быть субъективны, искажены галлюцинациями, тогда вся система будет красиво и последовательно ошибаться;
2. Нет механизма самообновления архитектуры. Система может накапливать формы, но не переосмысливает себя. У Soar есть learning rules, у ACT-R адаптивные модули. Здесь же, статичная структура, где меняется "характер", но не "мышление";
3. Проблема инициализации и холодного старта. Что делает система в первый день? У неё нет FR, нет GSV, пульсары пусты. Получается: сначала она беспомощна, пока не наберёт "жизненный опыт", а это значит, что не готова к сложным задачам с нуля.

Я всё правильно понял?

У любой LLM есть такая "маааааленькая" проблема, ну совсем "масюсенькая" - отсутствие памяти. RAG - это не память, а костыль - имитация памяти. Что Вы можете предложить как решение? Ведь даже у пчёл, кальмаров, тараканов, есть хоть какая то форма памяти

Если брать альтернативные архитектуры: Soar, ACT-R, CLARION и другие, то система - это уже память

LLM может строить "красивые" цепочки рассуждений, но они не живут, не эволюционируют, не накапливаются - они исчезают с каждым токеном, как рисунки на воде. Именно отсутствие оперативной, устойчивой памяти о собственном состоянии и цели превращает диалог в дрейф, а анализ - в имитацию понимания

Информация

В рейтинге
595-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Разработчик игр, Real AI Developer
Ведущий
От 150 000 ₽
C#
.NET
Проектирование архитектуры приложений
Создание архитектуры проектов
Разработка программного обеспечения
Visual Studio
C++
C
Assembler
Rust