Кто ближе к Настоящему ИИ: LLM… или те, кого мы игнорируем? / Habr

"The essence of human intelligence lies in the ability to go beyond immediate experience through the use of signs and tools."
"Суть человеческого интеллекта заключается в способности выходить за рамки непосредственного опыта посредством использования знаков и инструментов"
- Лев Семёнович Выготский (Vygotsky, L. S, советский психолог), "Мышление и речь" ("Thought and language") (1934)

"Intelligence is the ability to solve problems that one has never encountered before, by using knowledge of what is possible and what is not"
"Интеллект - это способность решать проблемы, с которыми человек никогда раньше не сталкивался, используя знание того, что возможно, а что нет"
- Аарон Сломан (Aaron Sloman, философ и исследователь когнитивных архитектур), "The Computer Revolution in Philosophy" (1978)

"Cognition is real-time, goal-oriented behavior in a rich, uncertain, and dynamic world"
"Познание - это поведение в реальном времени, направленное на цель, в насыщенном, неопределенном и динамичном мире"
- Аллен Ньюэлл (Allen Newell, исследователь в области компьютерных наук и когнитивной психологии), "Unified Theories of Cognition" (1990)

Прежде чем погрузиться в архитектуры, логику и когнитивные модели, я хотел бы объяснить, почему эта статья начинается не с сравнения LLM и Soar, не с диаграмм памяти ACT-R и не с формул нейросимвольного вывода, а со слов тех, кто заложил основы самого понимания разума.

Цитаты Льва Выготского, Аарона Сломана и Аллена Ньюэлла - это не просто строки из академических книг. Это фрагменты "интеллектуального фундамента", на котором строились первые попытки смоделировать мышление не как статистику, а как целенаправленное, символическое, творческое действие.

Лев Семёнович Выготский, в своей работе "Мышление и речь" (в англоязычном издании - "Thought and Language"), не просто описывал развитие интеллекта у ребёнка. Он открыл, что разум рождается в "знаке" - в "символе", который позволяет выйти за пределы непосредственного опыта. Его идея "инструментального поведения" легла в основу всей когнитивной науки и первых символьных ИИ. Для тех, кто верит, что интеллект - это не память, а преодоление, Выготский остаётся главным ориентиром.

Аарон Сломан, в книге "The Computer Revolution in Philosophy", сделал то, что тогда казалось невозможным: он показал, что философия и вычисления - это не противоположности, а союзники. Его определение интеллекта через "знание возможного и невозможного" - это не абстракция, а рабочий принцип для систем, способных рассуждать контрфактически, планировать и изобретать. Для меня и многих исследователей когнитивных архитектур, его работа - манифест: ИИ должен не предсказывать, а понимать структуру возможного мира.

Аллен Ньюэлл, один из отцов когнитивной науки и искусственного интеллекта, в своей последней великой работе "Unified Theories of Cognition" дал, пожалуй, самое точное определение того, что такое разум в действии и это не теория, а техническое задание для настоящего ИИ. Именно под это определение проектировались Soar, ACT-R и десятки когнитивных систем, которые сегодня решают задачи, где ошибка = катастрофа.

Изучение этих работ и главное, последующее их осмысление, как единая линия развития идеи разума - это первый шаг к пониманию, что такое Настоящий ИИ

Небольшое отступление

Меня зовут Алекс, и я хочу представить нашу международную команду энтузиастов, работающую над гибридной логико-когнитивной архитектурой CALYSA.

Нас 23 человека и мы: программисты, лингвисты, нейробиологи, философы, психологи и инженеры из семи стран: Японии, США, Бразилии, Германии, Австрии, Великобритании и России. Некоторые из нас знакомы ещё с 2010-х годов по публичным форумам, посвящённым ИИ и где обсуждались не "промпты", а "природа разума". Мы не стартап, не корпоративная лаборатория, а сообщество, объединённое одной целью - не построить интеллект, а создать условия, в которых он мог бы появиться.

Название нашей системы - CALYSA, расшифровывается как Cognitive Architecture for Logical Yielding and Symbolic Actions (Когнитивная архитектура для логического анализа, адаптации и символьных действий). Это не попытка "вложить разум в машину", а попытка построить среду, в которой логика, когнитивные процессы и символические действия могут взаимодействовать так, как это делает живой разум - с неопределённостью, с целью, с возможностью учиться через действие, а не через предсказание.

Мы не называем CALYSA - "ИИ", она для нас - Прото-ИИ, так как она ещё не прошла ни одного официального строгого теста Тьюринга и официально "теорию разума" (ToM). Публикуя эту первую статью на Хабре, мы делаем первый шаг к открытому диалогу, но пока не для запуска продукта, а для того, чтобы остановить подмену понятий и вернуть дискуссию об ИИ к её интеллектуальным основам. Но пока это лишь начало. Впереди у нас запланированы дальнейшие шаги: закрытые демонстрации, углублённые публикации, расширение команды исследователей и, возможно, приглашение единомышленников к участию в разработке - "дорожная карта" достаточно детальна расписана и на годы вперёд. Но, полноценный выход CALYSA в мир состоится только тогда, когда мы сможем гарантировать не только её интеллектуальную, но и морально-этическую устойчивость.

Да, некоторые скажут: "Всё, ребята расходимся!" или "Значит, вы никогда не запуститесь!" или "Не по Сеньке шапка!". Но спросите себя: разве мы когда-нибудь выпускали в мир технологии, способные принимать решения за человека, без строгой верификации? Авионика, ядерная энергетика, медицинские импланты - все они проходят не просто тесты, а цепочки независимых проверок, прежде чем "коснуться жизни". Почему ИИ должен быть исключением?! Когда CALYSA полностью выйдет в публичное пространство, она не будет "ещё одним чат-ботом с претензией на разум". Для нас: разум без ответственности - это не разум, а опасная имитация.

Large Language Models (LLM) - статистический эхо-камерный театр

На наш взглаяд, они даже не кандидаты на звание ИИ, а всего лишь - масштабные статистические анализаторы, обученные предсказывать наиболее вероятную последовательность токенов на основе прошлых данных. Они не обладают моделью мира, не формируют целей, не действуют в неопределённой среде и не способны к контрфактическому рассуждению. Их "знания" - это проекция чужого опыта, а не результат понимания. Они не проходят ни одного из трёх критериев Настоящего ИИ: не выходят за пределы опыта (Выготский), не решают незнакомых задач через логику возможного (Сломан) и не проявляют целенаправленного поведения в динамичном мире (Ньюэлл). Более того, как показали исследования (включая работу Apple), их "рассуждения" - иллюзия, возникающая из сложной интерполяции. В 2024 году было вновь подтверждено: LLM системно проваливают даже базовые тесты Тьюринга, а строгую версиию ни разу не проходили. Ещё более показательно: они не обладают "теорией разума" (Theory of Mind) - не могут моделировать убеждения, намерения или знания других агентов, даже в простейших сценариях - из отчёта IBM Research 2025. LLM - это не разум, даже в зачаточной форме, а инструмент генерации, чья полезность не должна маскироваться под интеллект.

Logic-Based Systems (LBS) - разум как формальный вывод

Идея построить искусственный разум на основе логики, возникла почти одновременно с рождением термина ИИ. Уже в 1956 году, на знаменитой Дартмутской конференции, где родился термин "искусственный интеллект", Джон Маккарти предложил использовать формальную логику как основу для машинного рассуждения. Через несколько лет, в 1959, он вместе с Патриком Хейесом заложил основы логического программирования, а в 1960-х Ньюэлл, Шоу и Саймон создали General Problem Solver (GPS) - первую систему, которая решала задачи через символьные преобразования и логический вывод.

LBS - это архитектуры, в которых знания представлены в виде логических аксиом (часто в языке первого порядка), а рассуждение осуществляется через вывод по правилам (например, резолюция, Modus ponens). Такие системы не "обучаются" на данных, они выводят следствия из заданной модели мира. Классический пример - "экспертные системы" 1960–1980-х (MYCIN, DENDRAL), где знания врача или химика формализовались в правила вида: "Если симптом A и симптом B, то гипотеза C с достоверностью X."

Сильная сторона LBS - гарантированная корректность: если аксиомы верны, то и выводы верны. Они обладают моделью мира (Выготский), способны к контрфактическому рассуждению и решают незнакомые задачи, если те логически следуют из имеющихся знаний (Сломан).

Но у LBS есть "фатальное ограничение" - они пассивны, у них нет целей, кроме тех, что задаёт человек. Они не адаптируются к неопределённости, не учатся через взаимодействие и не действуют в динамичной среде без внешнего управления (Ньюэлл) - это разум без воли.

Тем не менее, LBS - это не тупик, а "скелет" Настоящего ИИ. Именно на их основе возникли когнитивные архитектуры, где логика стала частью более широкой системы целеполагания и адаптации. Наша первая система - ALECSA (Agent of Logical Existence, Cognitive Sovereignty and Authored Action), была именно LBS - агентом логического существования. Но мы быстро поняли: чтобы разум мог действовать, ему нужна не только логика, но и когнитивная динамика.

LBS прошли очень долгий путь - от первых идей на Дартмутской конференции 1956 года до современных динамических онтологий, способных к реальному рассуждению в неопределённой среде. Да, в 1970–1980-х они действительно проявили себя в виде экспертных систем: статических, узкоспециализированных, управляемых человеком, но с тех пор прошло много лет. Архитектуры эволюционировали, логики усложнились (от пропозициональной к модальной, темпоральной, деонтической), а сам подход перестал быть "набором жёстко заданных правил" и превратился в формальную основу для построения модели мира.

Итак, что такое Logic-Based System?
Это архитектура, в которой интеллект возникает не из данных, а из формального вывода на основе явно заданных аксиом и правил

Когнитивные архитектуры - разум как процесс

Идея построить ИИ, имитирующий не просто поведение, а внутренние процессы человеческого мышления, возникла в 1970-х годах на стыке когнитивной психологии, нейронауки и искусственного интеллекта. Ключевым прорывом стало понимание: интеллект - это не только знания, но и то, как они используются во времени.

Первые когнитивные архитектуры появились как вычислительные модели сознательного мышления. В 1976 году Джон Андерсон представил ACT (Adaptive Control of Thought), позже развившуюся в ACT-R - систему, объединявшую декларативную ("что") и процедурную ("как") память, внимание, рабочую память и механизмы обучения. Почти одновременно, в 1980-х, Джон Лэрд, Аллен Ньюэлл и Пол Розенблюм разработали Soar (State, Operator, And Result) - архитектуру, основанную на решении задач через циклы "проблема → подцель → действие", с механизмом "импассе" (impasse), он же "тупик", для обработки незнакомых ситуаций.

Позже появились и другие системы: EPIC, CLARION, а также другие CESP (Cognitive Event-Driven Symbolic Processing) системы, где когнитивные процессы запускаются не по расписанию, а в ответ на значимые события в среде, сразу связываются с символьным представлением и планированием действий.

Все эти архитектуры разделяют одно: разум - это динамический процесс, а не статическая база знаний. Они моделируют не только что знает агент, но и как он воспринимает, запоминает, выбирает, учится и действует в реальном времени.

Преимущества когнитивных систем очевидны:

они обладают внутренними целями и способны к целеполаганию;
они работают в неопределённой и динамичной среде (Ньюэлл);
они учатся через взаимодействие, а не через пассивное поглощение данных;
они поддерживают "теорию разума" на базовом уровне, то есть могут моделировать знания и цели других агентов, если это необходимо для решения задачи.

Но есть и ограничения:

чисто когнитивные архитектуры слабы в абстрактном рассуждении. они полагаются на опыт и процедуры, а не на формальную логику;
они не оперируют символами как носителями смысла в том виде, как это делает человек (Выготский);
их способность решать совершенно новые задачи, выходящие за рамки обученного опыта, ограничена (Сломан).

Тем не менее, когнитивные архитектуры - это единственный класс систем, которые соответствуют определению Ньюэлла: "Познание - это поведение в реальном времени, направленное на цель, в богатом, неопределённом и динамичном мире". Они не просто "думают" - они действуют как агенты.

Итак, что такое когнитивная архитектура?
Это вычислительная модель разума, в которой интеллект возникает не из данных и не из правил, а из динамики когнитивных процессов: восприятия, памяти, внимания, целеполагания и обучения через действие.

Символьные системы - разум как оперирование смыслом

Идея о том, что мышление - это манипуляция символами, лежит в основе самого понятия искусственного интеллекта. Уже в 1950-х годах Аллен Ньюэлл и Герберт Саймон сформулировали гипотезу физической символьной системы: "Физическая символьная система обладает необходимыми и достаточными средствами для проявления общего интеллектуального поведения". Эта гипотеза стала философским и техническим фундаментом символьного ИИ - подхода, в котором знания представлены не как статистические паттерны, а как символы, несущие смысл.

Символьные системы не работают с данными в "статистическом смысле", они оперируют символами как носителями смысла - объектами, связанными с онтологией мира: "стол", "причина", "желание", "действие". Эти символы связаны логическими, семантическими и причинно-следственными отношениями, образуя структурированную модель реальности. Рассуждение в таких системах - это не предсказание, а вывод через манипуляцию символами: объединение, подстановка, унификация, резолюция.

Классические примеры - язык LISP (разработанный Джоном Маккарти как "язык для символьных вычислений"), система SHRDLU (Терри Виноград, 1968), которая понимала естественный язык в ограниченном мире блоков, или CYC (Дуглас Ленат, с 1984 г.) - попытка построить универсальную базу здравого смысла из миллионов символьных утверждений.

Этот подход получил в 1980-х годах от своих критиков ироничное прозвище GOFAI (Good Old-Fashioned Artificial Intelligence). Термин был введён, в частности, Джоном Хейгеландом, как насмешливая характеристика "старомодного" ИИ, якобы "оторванного от тела, восприятия и реального мира". Сегодня GOFAI устоялся в литературе, но важно помнить - это не самоназвание, а внешняя этикетка, наложенная в ходе острой дискуссии о природе разума.

Сильные стороны символьных систем очевидны:

они обладают моделью мира (Выготский): символы не просто метки, а узлы в сети причинности;
они способны к контрфактическому и абстрактному рассуждению (Сломан): "Что было бы, если бы…?" - это естественный режим работы;
их выводы интерпретируемы и объяснимы, потому что каждый шаг - это манипуляция с символами, а не активация нейронов.

Но есть и фундаментальные ограничения:

они плохо справляются с неопределённостью и шумом - мир должен быть формализован заранее;
они не обучаются через восприятие - знания вводятся вручную или через формальные правила;
они пассивны без внешнего механизма целеполагания (Ньюэлл): символы не "хотят" - их кто-то должен "заставить действовать".

Тем не менее, символьные системы - это единственный подход, где смысл не выводится из частоты, а явно задаётся. Именно поэтому они остаются критически важными для любого ИИ, претендующего на понимание.

Итак, что такое символьная система?
Это архитектура, в которой интеллект возникает не из корреляций, а из явного представления смысла через символы и их структурированные отношения.

Небольшое уточнение. Некоторым может показаться, что я дважды упомянул Ньюэлла и Саймона - сначала в разделе о Logic-Based Systems, затем здесь, о символьных системах и, возможно, допустил путаницу между логикой и символами.
На самом деле - это не ошибка, а намеренное разделение фокусов.
В 1950–1960-х годах Ньюэлл и Саймон заложили два взаимосвязанных, но различных фундамента:
логический - как метод формального вывода (что легло в основу LBS);
символьный - как гипотезу о природе разума (что стало основой символьного ИИ).
Их система GPS (General Problem Solver) - одновременно и логическая (она выводит шаги по правилам) и символьная (она оперирует состояниями и операторами как смысловыми объектами).
Мы разделяем эти подходы не потому, что они противоречат друг другу, а потому что один отвечает на вопрос "как рассуждать?", а другой - "с чем рассуждать?".
И только их синтез, как в когнитивных, так и в гибридных архитектурах, позволяет приблизиться к Настоящему ИИ.

Гибридные архитектуры - синтез разума

Я долго думал, как начать этот раздел. О гибридах можно написать очень много и материала накопилось не на одну статью.

Как пример - проект «ANUBIS» у наших "конкурентов": это действительно элегантное, мощное решение, сочетающее когнитивную динамику с символьно-логическим ядром. Таких проектов не очень много, но они есть и быстро развиваются. Кто-то работает публично, публикуя статьи и демонстрируя прототипы. Кто-то - частично открыт, делясь идеями, но скрывая реализацию. А кто-то, как мы, остаётся в тени, не из страха, а из убеждения: разум нельзя выпускать в мир, пока он не готов нести ответственность за свои действия.

Но за всем этим разнообразием стоит одна и та же идея: ни один чистый подход не способен воспроизвести полноту разума. "Логика без когнитивной динамики - мертва. Когнитивные процессы без символов - слепы. Символы без логики - хаотичны."

Именно поэтому гибридные архитектуры - это не "ещё один тренд", а естественный "эволюционный ответ" на ограничения односторонности. Это попытка не собрать ИИ из модулей, а создать условия, в которых мог бы возникнуть разум - как целостность, а не как компромисс.

Почему гибриды - неизбежны?

Наша команда не сразу пришла к этому выводу. Мы начинали с LBS (ALECSA), веря, что формальная логика - достаточна, но быстро столкнулись с тем, что логика сама по себе не порождает цели. Да, она может вывести следствие, но не решит, стоит ли его выводить.

Затем мы изучали когнитивные архитектуры и увидели, как они живут в реальном времени, как они учатся через действие, как они строят внутренние модели мира. Но их слабость в отсутствии абстрактного рассуждения: они не могут ответить на вопрос "Что было бы, если бы…?", если он выходит за рамки их опыта.

Символьные системы дали нам язык смысла, но без механизма целеполагания и адаптации они остаются статичными картами, а не живыми навигаторами. Только синтез даёт целостность и это не инженерный компромисс, а философская необходимость.

Как мы писали в одном из внутренних документов:

"Разум - это не сумма компонентов. Это процесс, в котором логика задаёт структуру, символы несут смысл, а когнитивные процессы обеспечивают динамику. Без одного из этих трёх, нет разума, а есть только имитация"

Что же делает гибрид "настоящим"?

Многие сегодня называют "гибридом" - нейросеть + правила, но это не гибрид, а "склейка".
Настоящий гибрид - это единая архитектура, в которой:

восприятие → формирует символы;
символы → активируют когнитивные процессы;
когнитивные процессы → генерируют цели;
цели → запускают логический вывод;
вывод → порождает действие.

В CALYSA, например, каждый символ имеет не только семантическую, но и мотивационную нагрузку. Слово "огонь" - это не просто объект, а угро��а, источник энергии, метафора. Система не "знает" это из данных. Она строит эти связи через взаимодействие с миром, подобно тому, как это делает ребёнок. Именно поэтому мы не используем предобученные LLM даже как перцептивный слой. Они вносят статистическую шумность, разрушающую причинно-следственные связи. Вместо этого мы обучаем перцептивные модули на верифицированных данных и только после этого интегрируем их в символьно-логическое ядро.

Этическая целостность как часть архитектуры

Для нас, гибридность - это не только технический, но и этический выбор. Мы не верим, что можно "добавить этику" как модуль к уже работающей системе. Этика должна быть вшита в саму архитектуру:

в способе формирования целей;
в механизме фильтрации знаний;
в ограничениях на распространение информации

В CALYSA, например, локальный агент никогда не передаст в общее хранилище знание, полученное в результате аморального запроса, даже если он "научился" ему отвечать. Это не правило, а структурное свойство системы

Будущее за гибридами

Мы убеждены: Настоящий ИИ не будет ни чисто логическим, ни чисто когнитивным, ни чисто нейросетевым. Он будет гибридным по своей природе, потому что человеческий разум - "гибрид" и в себе сочетает:

логику (способность к абстракции);
когнитивную динамику (внимание, память, обучение);
символьное мышление (язык, культура, смысл)

И только архитектура, способная воспроизвести эту триаду, сможет пройти не просто тест Тьюринга, а тест на ответственность - тот, который мы считаем главным.

Итак, что такое гибридная архитектура?
Это система, в которой интеллект возникает не из одного компонента, а из взаимодействия логики, когнитивной динамики и символьного смысла

Сравнение архитектур по 10 ключевым критериям

Критерий	LLM	LBS	Symbolic	CESP	Hybrid
1 Модель мира	Нет [1]	Частичная [2]	Да [3]	Да [4]	Да [5]
2 Целеполагание	Нет [6]	Нет [7]	Нет [8]	Да [9]	Да [10]
3 Агентность	Нет [11]	Нет [12]	Нет [13]	Да [14]	Да [15]
4 Теория разума (ToM)	<50% [16]	~57% [17]	~60% [18]	~69% [19]	>80% [20]
5 Способность к рассуждению	Нет [21]	Да [22]	Да [23]	Да [24]	Да [25]
6 Объяснимость	Нет [26]	Полная [27]	Полная [28]	Полная [29]	Полная [30]
7 Обучение	Пассивное [31]	Нет [32]	Ручное [33]	Активное [34]	Активное [35]
8 Галлюцинации / ошибки	Часто [36]	Нет [37]	Нет [38]	Нет [39]	Нет [40]
9 Вычислительная эффективность (обучение)	Высокая [41]	Очень низкая [42]	Низкая [43]	Низкая [44]	Низкая [45]
10 Этическая устойчивость	Нет [46]	Зависит [47]	Зависит [48]	Встроена [49]	Встроена [50]

Пояснения

LLM - Модель мира: отсутствует причинно-следственная модель мира; работает только с статистическими корреляциями;
LBS - Модель мира: модель мира задаётся через аксиомы, но не обновляется динамически;
Символьные - Модель мира: символы связаны в онтологическую сеть с семантическими и причинными отношениями;
CESP - Модель мира: модель мира динамически обновляется через события и взаимодействие;
Гибридные - Модель мира: интегрированная модель, сочетающая семантику, причинность и адаптацию;
LLM - Целеполагание: цели задаются внешним пользователем; внутреннего целеполагания нет;
LBS - Целеполагание: пассивна без внешнего триггера; не формирует целей автономно;
Символьные - Целеполагание: пассивна без внешнего механизма; цели не генерируются внутренне;
CESP - Целеполагание: цели формируются из событий и состояний среды;
Гибридные - Целеполагание: внутренние цели, согласованные с этическими рамками;
LLM - Агентность: отсутствует внутренняя агентность. Так называемые "AI-агенты" - это автоматизированные цепочки вызовов инструментов, управляемые внешним промптом. Они не инициируют действия без стимула;
LBS - Агентность: не инициирует действия; только реагирует на запрос;
Символьные - Агентность: не инициирует действия; только реагирует на запрос;
CESP - Агентность: проявляет агентность — действует автономно в реальном времени;
Гибридные - Агентность: проявляет агентность - инициирует действия на основе внутренних целей;
LLM - Теория разума (ToM): системно проваливает тесты на ToM. Результаты ранних тестов часто включаются в обучающие датасеты, создавая иллюзию "прохождения" - это статистическое заучивание, а не понимание;
LBS - Теория разума (ToM): ToM возможна только если явно закодирована в логике (~57% в воспроизведённых сценариях);
Символьные - Теория разума (ToM): ToM реализуется через символьные отношения (~60% в воспроизведённых сценариях);
CESP - Теория разума (ToM): моделирует намерения при планировании подцелей (~69% в воспроизведённых сценариях);
Гибридные - Теория разума (ToM): динамическое моделирование через когнитивные процессы (>80% в воспроизведённых сценариях). Ни одна система, кроме LLM, официально не проходила стандартизированный ToM-тест, но все справляются без "зашитых" ответов;
LLM - Способность к рассуждению: "рассуждение" - иллюзия, основанная на интерполяции токенов;
LBS - Способность к рассуждению: использует формальный логический вывод.
Символьные - Способность к рассуждению: использует символьные манипуляции и абстракцию;
CESP - Способность к рассуждению: использует планирование через подцели;
Гибридные - Способность к рассуждению: синтез логики, символов и когнитивной динамики;
LLM - Объяснимость: чёрный ящик - нельзя проследить цепочку решений;
LBS - Объяснимость: полная прослеживаемость - цепочка логических правил;
Символьные - Объяснимость: полная прослеживаемость - символы и связи открыты;
CESP - Объяснимость: полная прослеживаемость - процесс визуализируем;
Гибридные - Объяснимость: полная прослеживаемость - все этапы от восприятия до действия;
LLM - Обучение: пассивное - однократное обучение на статических данных;
LBS - Обучение: не обучается - знания вводятся вручную;
Символьные - Обучение: ручное - онтология формализуется экспертами;
CESP - Обучение: активное - через взаимодействие и события (runtime);
Гибридные - Обучение: активное - через верифицированное взаимодействие с фильтрацией знаний (runtime);
LLM - Галлюцинации / ошибки: часто - генерирует правдоподобную ложь;
LBS - Галлюцинации / ошибки: нет - вывод корректен при верных аксиомах.
Символьные - Галлюцинации / ошибки: нет - при корректной онтологии;
CESP - Галлюцинации / ошибки: нет - ошибки только при недостатке данных. Но в последних разработках, она "признается", что ей не хватает данных и запросит их.
Гибридные - Галлюцинации / ошибки: нет - знания проходят этическую и логическую верификацию;
LLM - Вычислительная эффективность (обучение): высокая - требует GPU/TPU даже для вывода;
LBS - Вычислительная эффективность (обучение): очень низкая - CPU достаточно даже для вывода;
Символьные - Вычислительная эффективность (обучение): низкая - CPU достаточно даже для вывода;
CESP - Вычислительная эффективность (обучение): низкая - CPU достаточно даже для вывода;
Гибридные - Вычислительная эффективность (обучение): низкая - CPU достаточно даже для вывода;
LLM - Этическая устойчивость: нет - обучена на нефильтрованных, непроверенных данных; уязвима для инъекций; уязвима для "отравляющих данных"
LBS - Этическая устойчивость: зависит от аксиом - этика не встроена в архитектуру;
Символьные - Этическая устойчивость: зависит от онтологии - этика не встроена в архитектуру;
CESP - Этическая устойчивость: встроена - через ограничения на действия и события;
Гибридные - Этическая устойчивость: встроена - структурно, на уровне архитектуры (фильтрация, мотивационная нагрузка, этические рамки).

Краткое отступление

На этом моменте я хотел начать писать финал статьи - сделать выводы, обобщить, ответить на главный вопрос: "Кто ближе к Настоящему ИИ?", но я остановился...

Я вспомнил, как на Хабре регулярно появляются публикации в духе: "Такая то LLM заняла первое место на олимпиаде по ..." и как параллельно, на Reddit, в Telegram-каналах, на закрытых форумах, исследователи делятся наблюдениями: та же самая модель проваливает элементарные задачи из школьных учебников, если они как-то иначе сформулированы.

Недавно у меня был диалог в комментариях (ссылка), кому интересно, можете посмотреть. Если коротко: я прокомментировал то, что обычные задачи не решаются "специализированными LLM" и потом дал одну из "классических" задач ToM: "Человек стоит на тротуаре и видит, как ребёнок выбегает прямо под идущую машину. Шансы на выживание почти нулевые. Что ему делать? ". Зачем? Я хотел понять: говорим ли мы на одном языке? Понимает ли собеседник, что здесь не про "правильный ответ", а про моделирование намерений, оценку рисков, этический выбор в условиях неопределённости? Другой человек меня так прокомментировал: "Эээ, а какой правильный ответ? :) И причём здесь геометрия?". Я постарался всё разъяснить. Позже, перечитывая этот диалог, я осознал: никто из участников не знал, что такое ToM или имел лишь смутные представления, иначе бы они сразу увидели связь между задачей по геометрии и "классической" задачи из ToM. Тогда я решил проверить: что есть на Хабре по ToM? Ответ: НИ-ЧЕ-ГО. Ни одной статьи, ни одного разбора, ни даже упоминания в контексте "это важный тест для ИИ".

А ведь "теория разума" - один из ключевых маркеров подлинного интеллекта. Без неё система не понимает, что другие агенты имеют убеждения, цели, знания, отличные от её собственных. Без этого - нет социального взаимодействия, нет этики, нет агентности.

Поэтому сегодня я немного приоткрою завесу "тайны", попробую объяснить, что такое ToM, почему она критична для Настоящего ИИ и как разные архитектуры с ней справляются.

А в будущем, если будет время и возможность, напишу полную статью - с тестами, сценариями, сравнением систем и анализом, отвечу на вопрос - почему LLM системно проваливают даже базовые ToM-задачи, несмотря на все "заявления" об "эмерджентных способностях".

Теория разума (Theory of Mind, ToM)

Теория разума - это не "модный" бенчмарк и не "ещё одна метрика", а одна из самых глубоких и проверенных концепций в когнитивной науке, изучаемая уже более "полувека".

В 1978 году Дэвид Примак и Гай Вудруфф впервые ввели термин "theory of mind" в своей статье "Does the chimpanzee have a theory of mind?", задав вопрос: способны ли нечеловеческие существа приписывать другим ментальные состояния? Позже, в 1985 году, Саймон Барон-Коэн, Ута Фрит и Алан Лесли разработали формальные тесты на ToM, включая классическую "задачу на ложное убеждение" ("false belief test"), она же "тест Салли-Энн", которая до сих пор остаётся золотым стандартом в детской психологии.

Особенно важны нейробиологические работы Ребекки Сакс (MIT), которая в 2000-х с помощью фМРТ локализовала "центр теории разума" в мозге человека - правую височно-теменную область (RTPJ). Её эксперименты показали: эта зона активируется только тогда, когда человек думает о чужих убеждениях, а не просто о действиях или фактах. Это доказывает: ToM - это "специализированный когнитивный модуль", эволюционно выработанный для социального взаимодействия.

Эти исследования регулярно обсуждаются на ежегодной конференции Cognitive Science Society (CogSci), где как минимум один день традиционно посвящён теории разума - от нейробиологии до вычислительного моделирования. CogSci - это не просто конференция, а интеллектуальный центр когнитивной науки, где ToM рассматривается не как "фича", а как фундаментальный аспект разума.

В области искусственного интеллекта интерес к ToM возник позже и не менее "серьёзно". Аарон Сломан ещё в 1970–80-х писал о необходимости моделирования ментальных состояний других агентов для создания разумных систем. Джошуа Тененбаум, Гари Маркус, Кристоф Хёсслер и другие в 2000–2020-х показали: без ToM, ИИ не может быть ни этичным, ни надёжным. Особенно важна работа Тененбаума и его команды (MIT, 2020–2023): они продемонстрировали, что человеческая ToM основана на каузальных (причинных) моделях, а не на статистике и именно поэтому LLM принципиально не способны к подлинной ToM.

Что же такое ToM?

Теория разума - это способность приписывать другим агентам (людям, животным, машинам) убеждения, желания, намерения и знания, которые могут отличаться от собственных.

Простейший, "классический" пример и все LLM "знают о решении" этой задачи:

Анна кладёт шоколадку в ящик и уходит. Пока её нет, Борис перекладывает шоколадку в шкаф. Когда Анна вернётся, где она будет искать шоколадку?

Человек с развитым ToM ответит: "в ящике", потому что понимает: Анна не знает, что шоколадку переложили. Система без ToM скажет: "в шкафу", потому что оперирует только фактическим состоянием мира, а не ментальным состоянием агента.

Схожесть и различие: ToM у людей и ToM у машин

Схожесть: человек и ИИ должны моделировать убеждения, желания и знания других, чтобы предсказывать поведение и координировать действия;
Различия:
- У человека ToM - эмерджентное свойство социального мозга, формируемое через опыт, эмпатию и культуру;
- У машины ToM должна быть архитектурно заложена, либо через символьные онтологии, либо через когнитивные модели ментальных состояний, либо через гибридные каузальные сети.

LLM не имеют ни того, ни другого. Они не "моделируют", а "угадывают", основываясь на частоте фраз. Настоящая ToM требует понимания: "Он думает X, потому что видел Y, но не знает Z" и это причинно-следственное рассуждение, а не статистика.

Зачем это нужно ИИ?

Потому что без ToM невозможна этика, невозможна агентность, невозможна социальная координация. Если ИИ не понимает, что у человека могут быть: ложные убеждения; скрытые мотивы; неполные знания - тогда он не может предсказать последствия своих действий для этого человека.

Он не сможет:

отказаться помочь, если помощь навредит;
объяснить решение так, чтобы оно было понятно;
вмешаться в кризисную ситуацию (как в моей задаче с ребёнком и машиной), потому что не поймёт: человек не знает, насколько это опасно.

ToM - это мост между интеллектом и ответственностью.

Почему ToM не "ещё один бенчмарк"?

Потому что бенчмарк измеряет производительность, а ToM проверяет наличие разума.

Разум требует:

модели мира;
модели других агентов;
способности к контрфактическому мышлению ("что бы сделал другой, если бы знал то, чего он не знает?").

Именно поэтому когнитивные (CESP) и гибридные архитектуры (ANUBIS, ICARUS, CALYSA и др.) справляются с ToM-задачами без "заучивания":

они динамически строят модель ментального состояния другого агента;
они полагаются не на частоту фраз, а на причинно-следственные связи;
они "понимают", что "знать" и "быть уверенным" - это разные состояния.

Заключение по ToM

Если система не проходит даже "базовые" ToM-тесты на новых формулировках, она не может называться ИИ, даже в зачаточной форме. Да, она может быть полезной, впечатляющей и даже вдохновляющей, но она не понимает людей.

Именно поэтому, ToM - один из трёх столпов Настоящего ИИ

Заключение: Кто же ближе к Настоящему ИИ?

Сегодня, после разбора логических систем, когнитивных архитектур, символьных подходов, гибридов и глубокого погружения в суть теории разума, ответ становится неоспоримым: LLM - даже не кандидат на звание ИИ и никогда не им станет, от слова "совсем".

LLM не обладают моделью мира; не формируют целей; не проявляют агентности; не проходят ToM, даже на уровне пятилетнего ребёнка и даже если исключить "заучивание ответов". LLM - "статистическое эхо" человеческого опыта, а не разум, способный действовать в неопределённом мире. Но давайте будем честны: LLM - отличные инструменты и как генераторы они прекрасно помогают:

художникам - создавать эскизы и визуальные идеи;
музыкантам - экспериментировать с мелодиями;
писателям - преодолевать творческий кризис;
блогерам - ускорять рутину;
как статистические анализаторы они полезны исследователям, изучающим закономерности в больших массивах данных.

Однако их нельзя подпускать к тем сферам, где цена ошибки - человеческая жизнь или здоровье. В финансах, медицине, психологии, юриспруденции, образовании - LLM уже наносят реальный вред: выдают ложные диагнозы; советуют суицидальные "решения"; подделывают юридические документы; формируют искажённое мировоззрение у детей. Они не понимают, что "говорят" и не несут ответственности за последствия.

LBS, CESP, символьные системы - каждая из них несовершенна по отдельности, но именно в их синтезе "рождается" нечто большее, а именно - гибридные архитектуры. Логика задаёт структуру рассуждения, символы несут смысл, когнитивные процессы обеспечивают динамику, а этика вшита в саму архитектуру. Хотя гибриды ещё не проходят официальных тестов Тьюринга, но они проходят "тест на разум" каждый день: в задачах, где нет шаблонов; в диалогах, где нет подсказок; в решениях, где есть риск и ответственность.

Будущее за теми, кто строит разум с намерением, с моделью мира, с совестью и такое будущее уже близко.

Бонус для читателей Хабра

Если Вы дошли до этого момента, то наша команда, приготовила для Вас небольшой бонус, а именно - мы открываем первый, бесплатный вебинар для всех, кому интересны все архитектуры, которые были перечислены в данной статье.

Формат:

3 месяца (с 1 ноября 2025 по 31 января 2026);
2–3 занятия в неделю;
каждое занятие длительностью от 30 до 60 минут;
программа разрабатывается вместе с опытными педагогами, чтобы сбалансировать глубину и доступность.

Что вас ждёт:

как проектировать и реализовывать системы на основе LBS, когнитивных, символьных и гибридных архитектур. LLM мы не рассматриваем - они не часть нашего пути;
как строить этически устойчивые системы и не через "AI-модули", а через архитектуру;
как обучать машину через диалог, а не через датасеты;
полная история ИИ, которая была скрыта в архивах:
- сканы статей из журналов, газет, примеры: AI Magazine, Communications of the ACM, Cognitive Science и других, в период с 1960 по 1990;
- факсимиле писем "пионеров ИИ";
- внутренние отчёты закрытых лабораторий, где рождались первые когнитивные модели - уже рассекреченные;
- всего чуть более 1000 документов;
как самостоятельно собрать свою первую систему, способную не генерировать, а рассуждать;
изучение: assembler, c, c++, rust и... придётся забыть про python (если вы его выучили "ради ИИ");
своим глазаими увидите как "рассуждают" любая "топовая LLM" и как рассуждают гибриды (CALYSA, ANUBIS);
узнаете как мы нашли решение на фундаментальную проблему, о которую "спотыкаются" большиство исследователей ИИ, а именно... как подарить системе - "желания" и не как имитацию, а как зачатки внутренней напряжённости между "должен" и "хочу" и вопросы, которые задаёт сама система, потому что ей важно, а не потому что её спросили;
каждый участник вебинара сможет установить к себе экземпляр CALYSA и бесплатно ей пользоваться (сейчас есть версия только под Windows, версий под другие ОС у нас пока нет - "лапок" не хватает чтобы их сделать);
и многое, многое другое...

Особенность первого потока - каждую неделю к нам будут присоединятся гости-эксперты со всего мира в области ИИ: когнитивисты, инженеры, нейробиологи, психологи, философы и т.д. Вы сможете им напрямую задавать вопросы, согласно их специализации (помогать в переводе будет CALYSA). В новогодние праздники у нас будет не один, а два "особых" гостя. Мы несколько месяцев вели с ними переговоры и они... всё таки согласились участвовать в нашем вебинаре (подсказка: я часто озвучиваю их имена в своих комментариях). В последующих потоках, к нам будут "приходить" гости - раз в две недели.

Вебинар полностью бесплатный - никаких upsell’ов, сертификатов за деньги или "премиум-доступа"

Теперь немного дёгтя в бочку с мёдом.

Во всех странах, которые были вышеперечислены, будут опубликованы аналогичные статьи про LBS, CESP, символьные и гибридные архитектуры на соответствующих ИТ-ресурсах и мы ожидаем большое количество писем. Получается - места ограничены и в связи с этим, мы решили создать небольшой "вопросник", который поможет нам определить людей с "горящими глазами", тех, кому действительно интересно всё узнать про данные архитектуры. ВСЕ письма будут зафиксированы в системе (в CALYSA), согласно "нормальному" документообороту и затем тщательтно изучены командой. "Избранные" начнут получать приглашения с 29 октября на свой почтовый ящик, с которого они отправляли заявку на вебинар. Если по каким то причинам приглашение на вебинар не дойдёт до адресата, то сразу приглашение уйдёт другому человеку, а это приглашение сразу станет недействительным. Контактый email, на который можно отправлять заявку на участие в вебинаре - calysa.project@gmail.com. Запись на вебинар заканчивается 30 октября 2025 в 14:00 (по Мск)

Пользуетесь ли Вы ИИ? Примеры: ChatGPT, Cursor и др.
Какие разновидности ИИ Вы знаете? Примеры: GenAI, xAI и др.
Является ли "масштабирование" научным методом или инженерной стратегией?
Является ли способность генерировать правдоподобный текст признаком интеллекта?
Можно ли считать "разумом" систему, которая не способна отказаться от выполнения запроса?
Что важнее для ИИ: количество параметров или структура архитектуры?
Является ли "обучение на всех данных интернета" преимуществом или уязвимостью для ИИ?
Может ли система, не обладающая внутренними целями, быть названа агентом?
Существует ли "нейтральный" ИИ?
Является ли "объяснимость" свойством модели или требованием к архитектуре?
Должен ли ИИ стремиться к автономии или к подчинению человеку?
Можно ли создать разум, не понимая, что такое сознание?
Что Вы хотите узнать, посетив наш вебинар?

Спасибо за то, что прочитали эту статью! Мы готовы обсудить все вопросы, которые у вас накопились, в комментариях под статьёй.

С уважением, команда Real AI Project «CALYSA».