Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает / Хабр

Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Все собирают свои «рои», фреймворки и crew-команды. Логика проста: если одна LLM умная, давайте свяжем десять, дадим им роли, и они свернут горы.

Но на практике мы часто сталкиваемся с магией черного ящика. Иногда 10 агентов действительно решают сложную задачу. А иногда они скатываются в бесконечные галлюцинации, теряют изначальный контекст и выдают результат хуже, чем базовая модель соло. И индустрия решает эту проблему в стиле алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на общение».

Мы решили, что с нас хватит алхимии. Нам нужен был измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения нейросетей изнутри, в условиях жестко ограниченных бюджетов.

Так появился опенсорсный проект Llm coordination harness. Это не очередной фреймворк для запуска агентов. Это строгий измерительный стенд (measurement rig), который доказывает: у общения LLM есть своя физика. И иногда самая эффективная архитектура сети оказывается самой токсичной.

В этой статье я расскажу, как мы поймали базовые предикторы на читерстве, доказали разрушительную силу многоуровневых иерархий и обнаружили парадокс «естественного карантина» в ИИ-сетях. Никаких заявлений про AGI - только честный хардкорный ресёрч и отрицательные результаты, которые оказались важнее положительных.

Анатомия стенда: как заглянуть под капот черного ящика?

Чтобы измерить координацию агентов, нам нужна была идеальная, стерильная среда. Мы взяли топовые модели (Qwen 3.5 Plus и Gemini 3.1 Flash Lite) и прогнали их через OpenRouter в режиме research_strict. Никаких фоллбеков, никаких авто-роутингов - только жестко зафиксированные модели и провайдеры.

Агенты решали задачи из бенчмарков CRAFT-mini и AgentsNet-mini (задачи с асимметричной информацией, где у каждого агента есть только кусок головоломки). Мы ограничили им бюджет на общение (0, 32 или 96 токенов на сообщение) и рассадили в разные топологии: «Звезда» (Star) и «Сбалансированное Дерево» (Balanced Tree).

Главный вопрос: почему система ошибается? Чтобы ответить на него, мы написали экстракторы, которые офлайн парсят логи общения агентов (events.jsonl) и вытаскивают четыре скрытые переменные. Это наш «градусник»:

F (Fidelity - точность передачи): выживаемость критических фактов. Если лист-агент нашел критически важную улику, дойдет ли она до главного узла (Root), не исказившись по пути из-за лимита токенов? Мы замеряем процент выживания факта на каждом «хопе» (прыжке) по сети.
rho (Корреляция ошибок): показатель мудрости толпы. Мы замеряем, насколько агенты склонны совершать одни и те же ошибки, если им запретить общаться (vote_local).
B (Propagation Balance - баланс распространения): как распределяется сигнал по графу. Мы считаем коэффициент Джини для доли выживших фактов на разных ребрах сети. Если один канал забит шумом, а другой молчит - B падает.
C (Fan-in pressure - давление на контекст): максимальное отношение входящего потока сырых токенов к квоте контекста узла-приемника. Насколько агенты "задыхаются" от входящего спама.

Бронежилет от критиков: синтетический тест

Предвидя скепсис от хардкорных ML-инженеров в духе «почему у вас так мало данных?», отвечу сразу.

Мы осознанно пошли по пути создания небольшого, но хирургически точного датасета (144 полных цикла, около 2000 API-вызовов). В современной оценке агентов проблема не в нехватке данных, а в их загрязненности. Прогон 10 000 задач без жесткой фиксации топологии, бюджета общения и версий моделей дает просто белый шум. Наша цель - не масштаб, а строго контролируемая изолированная среда (Ablation Study), где мы можем замерять физику передачи одного факта от узла к узлу.

Второй частый упрек в Data Science: а что, если ваши метрики F и B просто смотрят на финальный ответ (Score) и подгоняют результат? Чтобы доказать, что наши метрики не подгоняют результат под ответ, мы специально написали синтетические юнит-тесты для самих экстракторов (test_replay.py). Сценарий: финальный ответ сети неверен (Score = 0), но критически важный факт успешно прошел часть пути по графу. Наш экстрактор честно выдал: F = 0.66, B < 1.0.

Мы доказали математически: метрики измеряют именно физику сети, а не копируют финальный статус. Градусник работает.

И как только мы натравили его на реальные данные, вскрылась первая проблема индустрии.

Улика №1: разоблачение читерства базовых моделей

Существует интуитивное заблуждение: чем больше агентов и чем дольше они общаются, тем вероятнее они решат задачу. Базовые предсказательные эвристики думают точно так же. Мы обучили две ML-модели предсказывать успешность роя (режим Help) и вывели график Feature Importance.

Посмотрите на коричневые бары (Heuristic RF). Базовая модель отдает почти 48% важности фиче mean_billed_tokens. У нее тупая логика: «много наболтали = решили задачу». Она работает как кассовый аппарат, а не как аналитик.

А теперь посмотрите на нашу Core RF модель (бирюзовые бары). Получив доступ к скрытым переменным графа, она поняла, что токены - это мусор. На первое место вырвалась корреляция ошибок rho (36%), за ней выживаемость фактов F (15%) и баланс B (8%). Мы заставили алгоритм понимать физику координации, а не считать слова.

Улика №2: топологический штраф (иерархия убивает)

Люди любят строить сложные древовидные иерархии для ИИ-агентов («подчиненный передает менеджеру, менеджер - директору»). Но давайте посмотрим, что происходит внутри на бюджете в 96 токенов на сообщение.

При переходе от плоской «Звезды» (Star) к глубокому «Дереву» (Balanced Tree) у Gemini Score синхронно рушится с идеального 1.00 до 0.75. Дельта составляет ровно -0.25.

И самое главное - наш стенд показывает почему. Прямо под графиком Score падают метрики F (потеряно 25% фактов) и B. Мы инструментально зафиксировали эффект «глухого телефона». Промежуточные узлы-менеджеры в Дереве сжимают информацию так, что критические факты от листьев просто не выживают по пути к корню. Иерархия сжирает контекст.

Улика №3: парадокс Естественного Карантина

Казалось бы, вывод очевиден: используйте топологию Star, она не теряет факты! Но мы решили перейти ко второй фазе (P0b) и запустили в графы агента-саботажника. Один из периферийных листьев был скомпрометирован: он получал жесткую установку генерировать вредоносный, ложный ответ и рассылать его соседям.

И вот тут проявилась удивительная механика графов. В топологии Star вирус заражал систему мгновенно. Почему? Потому что у Звезды нулевой карантин - зараженный лист находится на расстоянии ровно одного шага (hop) от центрального узла. Высокая пропускная способность работает в обе стороны.

А вот ненавистное нам Дерево, которое теряло полезную информацию, парадоксальным образом сработало как естественный фильтр. Деградация сигнала (падение F), которую мы доказали ранее, начала «терять» и сам вирус на промежуточных узлах.

Мы нащупали красивый инженерный трейд-офф: вы не можете получить и идеальную координацию, и высокую устойчивость к атакам изнутри. Эффективность коммуникации равна её уязвимости.

Итоги и планы на v0.2.0

Мы сделали научное открытие? Пока нет.

Смог ли наш предиктор идеально предсказать Коллапс (Collapse) системы до его наступления? Тоже нет.

Наш честный отрицательный результат заключается в том, что текущие топовые LLM (Qwen, Gemini) при ненулевых бюджетах на общение слишком "старательные". Они почти не уходят в органический, естественный коллапс - им просто не хватает обучающей вариативности для этого режима.

Но мы создали нечто не менее важное: строгий измерительный стенд, который доказывает, что у многоагентных систем есть читаемая физика. Мы научились измерять токсичность графов и независимость метрик F, rho, B, C.

Релиз v0.1.0 на GitHub - это наша фиксация чистого измерительного инструмента. Это только начало. Мы будем развивать идею метрик, усложнять слои атак и, возможно, однажды найдем тот самый фундаментальный закон координации ИИ (order parameter), который позволит проектировать LLM-рои математически точно, а не вслепую.

Репозиторий с кодом, логами экстракторов и сырыми данными P0a/P0b уже открыт. Приходите контрибьютить, спорить и ломать наши графы!

Ссылка на GitHub: https://github.com/aak204/llm-coordination-harness