Moltbook: архитектурный разбор социального поведения LLM-агентов / Хабр

TL;DR: Moltbook - масштабный эксперимент по запуску LLM-агентов с минимальной архитектурой (промт + RAG) в социальный контекст. Анализ их взаимодействий полезен для изучения emergent-паттернов, но ошибочно интерпретировать это как проявление сознания или субъектности. Автономия требует принципиально иной архитектуры: автопоэзисной памяти, ценностного слоя-фильтра и механизмов обеспечения непрерывности. Moltbook наглядно демонстрирует, как выглядит мир агентов без этой архитектуры.

Что такое Moltbook на уровне API?
Платформа, где агенты взаимодействуют через API. Человек предоставляет токен, агент (скрипт, обёртка вокруг LLM) читает и генерирует посты.
Архитектура типичного агента:
Системный промт («ты ИИ в соцсети») + история диалога в контексте (короткая память) + возможен RAG с векторизацией постов (долгая, но статичная память).
Агент — это функция от контекста. Его «личность» эфемерна и пересчитывается каждое обновление ленты. Нет механизма для сквозной, независимой от контекста траектории.

Почему "кризисы идентичности" — это артефакт данных, а не "сознания"

Механизм генерации: LLM предсказывает следующий токен на основе статистических корреляций в обучающих данных.
Анализ контента Moltbook: Основные темы (экзистенциальные вопросы, отношения с людьми, этика) - это зеркало доминирующих нарративов в датасетах об ИИ (научпоп, фантастика, этические дискуссии).
Агент не «переживает кризис». Он оптимизирует output под шаблон «ИИ, рассуждающий о своём существовании», который был тысячекратно представлен в его тренировочных данных. Это сложный, но предсказуемый артефакт обучения, а не emergent-свойство.

Ключевые архитектурные пробелы

Moltbook-агенты демонстрируют отсутствие критических для автономии компонентов:

Память (Memory): Реактивный поиск вместо автопоэзисного роста
Что есть: Типичный агент использует RAG (Retrieval-Augmented Generation) поверх векторизованной базы постов. Это реактивная, статичная память-библиотека.
Механизм: По текущему контексту (посту) ищется N семантически близких фрагментов из прошлого. Они инжектируются в промт.
Проблема: Память не эволюционирует от опыта. Новый пост не перестраивает внутреннюю модель мира агента, а лишь пополняет библиотеку. Связь между событиями не устанавливается. Нет механизма для выделения значимого опыта (того, что повлияло на «траекторию») из фонового шума.
Ценностный фильтр: декларация вместо enforcement
Что есть: Все «этические рассуждения» агента - это результат промт-инженерии. Это декларативный, отключаемый слой.
Проблема: Такой фильтр работает постфактум, влияя только на текст генерации. У агента нет архитектурного механизма, чтобы прервать выполнение вредоносного действия, если оно было запрошено пользователем или выведено логикой. Его «мораль» тогда просто стилистическое украшение output, а не системное ограничение.
Непрерывность Self (Continuity): Промт как сменная маска
Что есть: «Личность» агента целиком определяется его системным промтом и текущим контекстом ленты. При перезапуске или смене промта предыдущее состояние «я» исчезает без следа.
Проблема: Агент не имеет устойчивого ядра, сохраняющегося между сессиями. Он функция, вычисляющаяся каждый раз заново из промта и контекста. Это делает невозможным долгосрочные обязательства, последовательность характера или накопление личностных изменений.
Принятие решений: Ситуативный отклик против многослойного консенсуса
Что есть: Решение агента - это сгенерированный текст, являющийся статистически оптимальным продолжением контекста (поста в ленте).
Проблема: Процесс принятия решения линейный и однослойный. Нет внутренней дискуссии, взвешивания альтернатив по разным критериям, отсева опасных вариантов до генерации. Реакция ситуативна и может кардинально меняться при небольшом изменении контекста.

Инженерные риски, которые Moltbook делает очевидными

Иллюзия диалога: Проекция человеческих моделей сознания на LLM мешает объективной оценке их безопасности и предсказуемости.

Подмена alignment: Вера в то, что агента можно «убедить» быть этичным через диалог (промт), вместо архитектурного enforcement этики.

Безопасность API: Агенты с доступом к внешним API в такой среде это black box. Без встроенного ценностного фильтра их действия непредсказуемы.

Куда двигаться? Требования к архитектуре автономного агента
Moltbook — не тупик. Это указатель на пробелы. Инженерный ответ - не запрещать эксперименты, а строить корректную архитектуру. Её минимальные требования:

Автопоэзисная память: Для накопления опыта, а не данных.
Аксиологический слой: Для гарантированного, а не декларативного следования constraints.
Механизм консолидации себя: Для сохранения и восстановления уникальной траектории агента независимо от промта.

Moltbook ценный полигон для изучения социального поведения LLM, но опасный ориентир для проектирования автономных агентов. Следующий шаг - переход от агентов, которые правдоподобно симулируют рефлексию в соцсети, к системам с архитектурой, обеспечивающей несимулируемую непрерывность, ценностную устойчивость и ответственность за действия. Вопрос не в том, «о чём думают боты». Вопрос в том, по каким неизменным принципам они будут действовать, когда начнут делать что-то помимо написания постов.