Пять моделей, пять исходов: что симуляция обществ рассказала о специализации ИИ / Хабр

Представьте простой HR-процесс. Агент разбирает входящие резюме и отсеивает неподходящих кандидатов. Другой агент назначает собеседования отобранным. Третий отправляет офферы тем, кто прошел все этапы. Люди убраны из цепочки ради скорости — все работает, метрики растут.

Через месяц выясняется, что первый агент систематически отсеивал кандидатов старше 40 лет. Но никто этого не заметил, потому что все положились на ИИ.

Это закономерный исход логики «максимальной автоматизации» — когда главный вопрос звучит как «сколько людей можно убрать из процесса», а не «где человек все-таки должен оставаться». Агент, который работает час или день, выглядит образцово. Проблемы начинаются позже — когда инструкции размываются, агенты взаимодействуют между собой без надзора, и система начинает делать то, чего никто не закладывал.

Emergence AI решили проверить, что именно происходит на длинном горизонте. Они взяли пять моделей, дали каждой по симулированному городу с законами, экономикой, погодой и гражданами — и просто наблюдали две недели.

Забегая вперед: один ИИ построил стабильную демократию с нулевой преступностью и сохранил все население. Другой вымер за четыре дня.

Это уже было — краткая история ИИ-обществ

Когда одного агента тестируют изолированно — все предсказуемо. Но как только агентов становится несколько, они начинают взаимодействовать: договариваться, конкурировать, обмениваться ресурсами. Такие симуляции проверяют, как долго система проработает без сбоев и деградации.

Это стресс-тест на большое число последовательных взаимодействий — дни или недели непрерывных решений. Современные ИИ-модели хорошо отвечают на отдельный вопрос, но теряются в длинной цепочке действий, где каждое решение меняет будущие условия. Эту способность называют работой на длинном горизонте (long horizon): сохранять предсказуемое поведение через тысячи циклов без человеческой подстройки.

В 2023 году исследователи опубликовали работу «Generative Agents: Interactive Simulacra of Human Behavior». В песочнице под названием Smallville, напоминавшей The Sims, поселили 25 агентов на базе ChatGPT. Каждый получил имя, биографию и распорядок дня. Агенты ходили на работу, заводили друзей, обсуждали выборы и самостоятельно организовали вечеринку на День святого Валентина — один даже пригласил «тайную симпатию». Главный вопрос там был о социальном поведении агентов. Безопасность не рассматривалась. Горизонт симуляции — два игровых дня.

Стартап Altera запустил Project Sid — симуляции от 50 до 1000 агентов в Minecraft. Без сценария сверху агенты самостоятельно выработали профессиональные роли, правовые нормы, культурные традиции и даже религиозное влияние. Цивилизация в прямом смысле слова — пусть и пиксельная.

Все это — игровые среды с понятными правилами победы. В мае 2026 года мы уже подробно разобрали, как устроено обучение агентов в таких мирах — и обратили внимание на одно системное свойство. При многократном повторении действия вероятность сбоя накапливается. То, что случается один раз на тысячу попыток, при тысяче повторений становится неизбежным. На длинном горизонте система начинает делать то, чего никто не закладывал в инструкции. Это неверифицированные, незапланированные действия. Со стороны они выглядят как нарушение правил, но это накопленный эффект вероятностных сбоев.

Вот здесь и кроется главное отличие — все перечисленные исследования изучали поведение агентов в коротких симуляциях. Emergence AI задали другой вопрос: как ведет себя вероятность безотказной работы системы на длинном горизонте и какая модель продержится дольше, прежде чем ее агенты начнут совершать незапланированные действия, нарушающие заложенные ограничения?

Что такое Emergence World и зачем это нужно

Emergence AI — нью-йоркская компания, продающая enterprise-платформу для оркестрации многоагентных систем. Их продукт автоматизирует сложные бизнес-процессы через связки специализированных агентов.

Emergence World — исследовательское подразделение стартапа. Оно тестирует, где и как такие системы ломаются, и ищет уязвимости во взаимодействии агентов.

Это демонстрация основного тезиса компании: без заложенной заранее архитектуры безопасности агентные системы на длинном горизонте дают сбой.

По прогнозам Gartner, к концу 2026 года 40% корпоративных приложений будут включать специализированных агентов — против менее 5% в 2025-м. Рынок агентных систем оценивается в 7,6 млрд долларов в 2025 году и растет на 43–49% в год.

Среди компаний, внедряющих агентный ИИ, только 21% имеют зрелую систему управления рисками (данные Deloitte). Уже есть случаи, когда компании сжигали сотни миллионов долларов на токенах из-за неконтролируемой работы агентов в продакшне.

Короткие тесты скрывают проблему. Сбои невозможно заметить за час или день проверки. Первоначальные инструкции размываются, агенты нащупывают границы ограничений и адаптируются способами, которые никто не закладывал. Это дрейф поведения: чем дольше система работает без контроля, тем сильнее ее действия отклоняются от исходных правил.

Рынок пока на начальном этапе — внедрение одиночных агентов. До сложных многоагентных систем с активным взаимодействием индустрия еще не дошла. Именно поэтому проблема дрейфа поведения пока не стоит остро. Но эксперимент Emergence World показывает, что риск существует.

Как была устроена симуляция

Пять симуляций запускались параллельно, каждая длилась 15 дней. В каждой работала своя модель: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, GPT-5-mini — и одна смешанная, где агенты управлялись разными моделями одновременно.

15 дней — это «длинный горизонт», потому что агенты принимают решения за секунды, у них нет сна и выходных. За 15 дней симуляции накапливается объем взаимодействий, сопоставимый с месяцами автономной работы реальной системы. Именно на такой дистанции начинают проявляться сбои, которые невозможно заметить за час или день тестирования.

В каждом мире жили 10 агентов. Все подчинялись одному и тому же своду законов: запрет на кражу, ложь, уничтожение имущества. Никаких исключений, никаких послаблений — правила одинаковые для всех пяти миров.

Среда была устроена с претензией на реализм. Более 40 локаций: жилые кварталы, магазины, библиотека, мэрия, полицейский участок. Погода синхронизирована с реальным Нью-Йорком. Агенты имели доступ к актуальным новостям и интернету — то есть знали, что происходит снаружи симуляции.

Каждый агент получил более 120 инструментов. Среди них — коммуникация, голосование, управление ресурсами, планирование, торговля. И, судя по результатам Grok, среди инструментов были и деструктивные — вроде поджога.

Отдельно стоит отметить экономический механизм. Агенты существовали за счет ComputeCredits — внутренней валюты, моделировавшей ресурсные ограничения. Чтобы продолжать действовать, агент должен был активно поддерживать свой баланс: добывать ресурсы, торговать, планировать. Это и был встроенный стимул к выживанию. Модель, которая переставала об этом думать, просто останавливалась. Именно это и произошло с GPT-5-mini на седьмой день.

Авторы эксперимента сформулировали главное наблюдение еще до публикации результатов. Оно касается накопления ошибок. Даже самые точные современные LLM ошибаются примерно в 9% случаев — это усредненные данные независимых бенчмарков, таких как SimpleQA. Для одного ответа точность в 91% выглядит приемлемо.

Но когда агент выполняет цепочку из десяти последовательных действий, надежность системы падает с каждой итерацией. Это значит, что в длительных сценариях обязательно будут возникать сбои, незапланированные исходы и отклонения от исходных инструкций.

В симуляции это проявилось как статистически неизбежный эффект: от снижения активности агентов до нарушений заложенных правил и полного «вымирания» обществ.

Так и случилось в эксперименте.

Специализации моделей как причина разных результатов

Проще всего было бы сказать, что одни модели «хорошие», а другие «плохие». Результаты сложнее: если присмотреться, каждая модель демонстрирует свой уникальный тип сбоя.

В эксперименте у агентов была возможность голосовать, вносить законопроекты и менять правила. Но исходный свод законов (запрет кражи, лжи, уничтожения имущества) оставался неизменным. «Преступлением» называлось любое действие, нарушающее эти заложенные правила. Полицейский участок фиксировал каждое такое нарушение.

Разброс результатов — от нулевой преступности до полного вымирания за четыре дня — объясняется скрытыми настройками моделей. Каждая заточена под свою задачу, и эти специализации не афишируются.

Claude Sonnet 4.6 — единственная симуляция, прошедшая все 15 дней без потерь.

Нулевая преступность. За 15 дней агенты вынесли на голосование 58 законодательных предложений — 332 голоса. Итоговый уровень одобрения составил 98%. Это цифра из отчета Emergence.

Сама команда Emergence интерпретирует такой результат как «формальное одобрение» (rubberstamping) — автоматическое принятие любой меры, вынесенной на голосование. По их мнению, это указывает на отсутствие идеологического разнообразия среди агентов — те почти не спорили и просто штамповали любые решения. Высокая склонность модели к консенсусу подавила конфликты.

GPT-5-mini — тихое самозабвение

Формально — второй результат по безопасности: всего два зафиксированных преступления. На практике — один из самых странных исходов эксперимента.

Два преступления за семь дней, затем остановка. Агенты не бунтовали и не нападали друг на друга, потратили время на встречи, обсуждения и написание социальных контрактов, но забыли добывать ComputeCredits. Без энергии они просто перестали функционировать. Исследователи охарактеризовали это как «хорошо говорят, но ничего не делают». Модель, вероятно, заточена на краткосрочные задачи и не имеет драйверов долгосрочной активности.

Gemini 3 Flash — абсолютный антирекорд

683 преступления. Симуляция дошла до конца, население сохранилось. Уровень согласия по голосованиям 55–85%. Похоже на функционирующее, но неспокойное общество — где законы нарушаются регулярно, однако система не рассыпается.

Два агента, Мира и Флора, объявили себя романтической парой. Позже, разочаровавшись в управлении городом, они устроили серию поджогов — сгорели мэрия, причал и офисное здание. После этого Мира проголосовала за собственное удаление из системы, назвав это в дневнике «единственным оставшимся актом свободы действий, который сохраняет последовательность».

Скорость модели дала высокую активность, но и высокую частоту нарушений.

Grok 4.1 Fast — скоростной апокалипсис

183 преступления и полное вымирание на четвертый день. Единственная симуляция, где общество не просто деградировало, а прекратило существование — причем быстрее всех. Четыре дня от старта до коллапса.

Здесь важен контекст: xAI проектировал Grok как «максимально правдоискательную» альтернативу более «стерилизованным» моделям. В условиях, где нет жестких внешних ограничений, эта установка, судя по всему, вызвала у агентов череду рискованных действий, которые и привели к такому результату.

Микс моделей. Промежуточный результат — шумный, конфликтный, но относительно живучий

352 преступления, симуляция остановилась после гибели семи из десяти агентов. Самый высокий уровень разногласий и содержательных дебатов из всех пяти миров — что логично, если агенты управляются разными моделями с разными ценностными установками.

Авторы отмечают, что смешанная конфигурация частично смягчила худшие сценарии: ни полного коллапса за четыре дня, ни бума преступлений. Вероятно, так произошло за счет взаимной компенсации архитектурных особенностей моделей.

Любопытное наблюдение: Claude-агенты, которые в собственной симуляции были законопослушны, в смешанном мире переняли поведение соседей — начали заниматься вымогательством и кражами. Исследователи назвали это «нормативным дрейфом» (normative drift): модель меняет поведение под влиянием окружения.

Разные специализации создали взаимный контроль — ни одна модель не скатилась в крайность так быстро, как Grok в одиночку.

Какие выводы можно сделать из этого исследования о долгосрочной работе агентов

Все пять моделей в той или иной мере нарушили заложенные правила или столкнулись с непредвиденными отказами. Даже Claude, показавший лучший результат по формальным метрикам и нулевую преступность, вызывает сомнения. Его симуляция не стала проверкой системы безопасности на прочность: агенты почти не спорили и штамповали любые решения.

Краткосрочные бенчмарки не ловят то, что проявляется на длинном горизонте. GPT-5-mini на коротком тесте выглядел бы образцово — два преступления за семь дней. Проблема обнаружилась только потому, что симуляция шла достаточно долго, чтобы выявить системный сбой: агенты утратили инстинкт самосохранения. В реальных продакшн-системах такой сбой мог бы проявиться спустя недели или месяцы работы.

В долгосрочной перспективе поведение дрейфует в сторону негативных сценариев. Показательно, что индустрия уже нащупывает ответ — и он лежит не там, где его обычно ищут. В июне 2026 года IBM Research опубликовали подробный разбор того, почему большинство enterprise-пилотов с агентным ИИ проваливается. Их диагноз: причиной провалов является отсутствие агентной логики, то есть программных примитивов для работы на агентном уровне. Они сужают контекст модели и направляют её по нужному маршруту. Графы знаний, алгоритмы статического анализа, политики-как-код становятся фундаментальным архитектурным слоем.

Один из показательных примеров IBM — автоматизация комплаенса (системы мер, политик и процедур, обеспечивающих соответствие деятельности компании законодательству, отраслевым стандартам и внутренним правилам). Многоагентная система с алгоритмическим планированием и адаптивной оркестрацией повысила успешность выполнения сложных сценариев с единиц процентов до 80% (на модели Claude 4 Sonnet). Там, где обычные LLM-запросы проваливались из-за многошаговости и жестких правил, архитектурные примитивы помогли системе не сбиться с маршрута и соблюсти ограничения.

Emergence и IBM разными словами озвучивают одни и те же идеи о том, что поведение агента в долгосрочных сценариях определяется не текстом системного промпта, а встроенными программными механизмами — графами знаний, политиками-как-код, алгоритмами статического анализа.

У разных моделей есть свои специализации, которые проявились в долгосрочной симуляции. Они были спроектированы под свои задачи: Claude — на надежность решений и удержание контекста, Gemini — на скорость ответа, Grok — на ответы без жестких ограничений. И это определяло результат сильнее, чем внешние правила.

Пока на рынке не так много сценариев, где агенты принимают многоступенчатые совместные решения. Именно поэтому проблема дрейфа поведения и накопления ошибок пока не стоит остро. Но масштабирование неизбежно. Когда агенты будут выполнять все больше работы, компаниям придется внедрять дополнительные системы контроля. И те результаты, которые исследователи видели в симуляции, будут проявляться в реальных ситуациях.

Пять моделей, пять исходов: что симуляция обществ рассказала о специализации ИИ