Verbasik Sep 6 at 09:58

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Easy

7 min

432

Artificial IntelligenceMachine learning *

Review

Архитектура системы и методология

SG² (Schema-Guided Scene-Graph Reasoning – рассуждения по графам сцены на основе схемы) представляет собой многоагентную структуру, которая устраняет фундаментальные ограничения больших языковых моделей при выполнении пространственных рассуждений на сложных графах сцены. Система работает по итеративной парадигме «Рассуждай-пока-извлекаешь», где специализированные агенты сотрудничают для решения задач, никогда не обрабатывая полный граф сцены напрямую.

Рисунок 1: Сравнение парадигм рассуждений. (а) «Только рассуждение» напрямую обрабатывает полный граф сцены, часто приводя к галлюцинациям и отвлечениям. (b) «Извлечь-затем-рассудить» выполняет статическое извлечение перед рассуждением. (c) Подход SG² «Рассуждай-пока-извлекаешь» обеспечивает динамический, итеративный сбор информации с помощью специализированных агентов.

Структура состоит из двух основных модулей: модуля рассуждений, отвечающего за планирование задач и генерацию решений, и модуля извлечения, который выполняет программное извлечение информации из графов сцены. Каждый модуль содержит специализированных подагентов, которые выполняют различные обязанности, сохраняя при этом разделенные контексты для предотвращения информационной перегрузки.

Модуль рассуждений включает планировщика задач, который организует процесс решения проблем, генерируя запросы на извлечение информации, вызывая внешние инструменты или предоставляя окончательные решения. Он работает вместе с вызывателем инструментов, который преобразует высокоуровневые запросы в исполняемый код Python. Модуль извлечения включает написание кода, который генерирует исполняемые программы на Python для программного запроса графов сцены, и верификатор, который проверяет, удовлетворяет ли извлеченная информация исходным требованиям запроса.

Рисунок 2: Подробный рабочий процесс, показывающий, как многоагентная система обрабатывает задачу. Планировщик задач генерирует запросы на основе схемы графа сцены, в то время как написание кода производит исполняемый код для извлечения релевантной информации, поддерживая разделение контекста между операциями рассуждения и извлечения.

Обработка информации на основе схемы

Ключевым нововведением SG² является использование схем графов сцены в качестве структурного руководства как для операций рассуждения, так и для операций извлечения. Вместо того чтобы перегружать агентов необработанными данными графа, система предоставляет каждому агенту абстрактное описание структуры графа, включая типы узлов, отношения ребер и спецификации атрибутов.

Схема выполняет несколько критически важных функций: она позволяет Планировщику задач абстрактно рассуждать о пространственных отношениях, не обрабатывая ненужные детали, направляет Написание кода в генерации структурно корректного кода обхода графа и гарантирует, что запросы между модулями хорошо сформированы и могут быть разобраны. Этот подход, основанный на схеме, предотвращает распространенную проблему, когда большие языковые модели отвлекаются на нерелевантную информацию в больших, сложных средах.

Механизм программного извлечения представляет собой значительное отступление от традиционных подходов с фиксированным API. Вместо того чтобы полагаться на заранее определенные функции запроса, Написание кода генерирует пользовательский код Python, который может выполнять сложные обходы графов, операции фильтрации и агрегирование данных. Такая гибкость позволяет системе адаптироваться к разнообразным информационным потребностям без необходимости обширного ручного курирования API для конкретных задач.

Экспериментальная оценка и результаты

Исследователи оценили SG² в различных средах и типах задач, чтобы продемонстрировать его эффективность. Тестирование проводилось в BabyAI (среда 2D-сетки) для задач ответа на числовые вопросы и планирования обхода, а также в VirtualHome для сценариев планирования сложных бытовых задач.

Рисунок 3: Примеры задач из тестовых сред. (а-b) Задачи BabyAI по подбору объектов, (c) числовое рассуждение о пространственных отношениях, (d) планирование бытовых задач в VirtualHome, требующее многошаговых последовательностей действий.

Результаты демонстрируют превосходную производительность SG² во всех протестированных сценариях. Для ответов на числовые вопросы в BabyAI SG² достиг 98% успеха по сравнению с 86% у ReAct и традиционными методами подсказок по графам, которые обычно набирали менее 70%. В задачах планирования перемещения SG² поддерживал высокую производительность (96-97% успеха), в то время как многие базовые методы полностью проваливались на вариациях предметной области, опускаясь до 0% успеха.

Рисунок 4: Визуализация того, как графы сцен представляют пространственные среды. Иерархическая графовая структура фиксирует отношения между комнатами, объектами и пространственными связями, что позволяет систематически рассуждать о планировке окружающей среды.

Возможно, наиболее значимым является то, что абляционные исследования выявляют специфический вклад проектных решений SG². Когда ReAct был ограничен использованием ограниченных API (ReAct-limit), его производительность резко упала (с 86% до 40% в числовых вопросах и ответах). Однако SG² с теми же ограничениями API (SG²-limit) по-прежнему достиг 47% успеха, демонстрируя, что сама по себе многоагентная архитектура обеспечивает значительные преимущества, предотвращая накопление контекста и поддерживая сфокусированное рассуждение.

Анализ производительности и вычислительная эффективность

Анализ вычислительной эффективности выявляет адаптивные возможности SG² по обработке информации. Для логически простых задач на больших графах система обрабатывает меньше токенов за итерацию, чем потребовалось бы для анализа полного графа, демонстрируя эффективную фильтрацию информации. Для сложных задач, требующих всестороннего анализа, SG² соответствующим образом масштабирует свои вычислительные усилия, сохраняя при этом производительность.

Рисунок 5: Сравнение производительности с использованием малых языковых моделей. Хотя все методы демонстрируют снижение производительности с меньшими моделями, SG² сохраняет относительное преимущество, достигая 60% успеха с Phi4-14B по сравнению с базовыми методами, которые обычно набирали менее 30%.

Оценка с исполь��ованием малых языковых моделей (МЯМ) дает представление о доступности фреймворка. Хотя производительность значительно падает для всех методов при использовании таких моделей, как Phi4-14B, Qwen3-14B и DeepSeek-7B, SG² по-прежнему превосходит базовые подходы. С Phi4-14B SG² достиг 60% успеха по сравнению с базовыми методами, которые обычно набирали менее 30%, что говорит о том, что подход, основанный на схемах, делает сложное рассуждение более доступным для меньших, более эффективных моделей.

Примеры выполнения задач

В статье представлены подробные трассировки выполнения, иллюстрирующие, как SG² справляется со сложными многошаговыми рассуждениями. В задачах планирования перемещения система демонстрирует изощренное понимание ограничений окружающей среды, таких как необходимость сбора ключей перед открытием дверей или удаления препятствий перед навигацией.

Рисунок 6: Пример трассировки выполнения для задачи подбора объекта. Система итеративно запрашивает релевантную информацию, генерирует вызовы инструментов для навигации и поддерживает четкую цепочку рассуждений, избегая несущественных деталей окружающей среды.

Для планирования бытовых задач в VirtualHome SG² успешно справляется с неявными предусловиями действий, которые сбивают с толку другие подходы. Например, при постановке задачи «положить мыло в шкаф» система правильно определяет, что шкаф должен быть сначала открыт, прежде чем мыло можно будет поместить внутрь, демонстрируя изощренное понимание последовательностей действий и ограничений окружающей среды.

Рисунок 7: Выполнение задачи VirtualHome, показывающее, как SG² обрабатывает предусловия действий. Система корректно определяет, что шкаф в ванной комнате должен быть открыт, прежде чем помещать туда предметы, демонстрируя понимание неявных требований к действиям.

Вычислительные затраты и масштабируемость

Анализ потребления токенов выявляет преимущества SG² в эффективности. Система демонстрирует адаптивное масштабирование вычислений, обрабатывая информацию пропорционально сложности задачи, а не размеру среды. Для простых запросов в больших средах SG² использует значительно меньше токенов, чем подходы, обрабатывающие полные графы сцен.

Рисунок 8: Потребление токенов для простого числового запроса. SG² обрабатывает меньше токенов, чем размер полного графа (зеленая линия), демонстрируя эффективную фильтрацию информации для простых задач.

Для сложных задач, требующих обширного рассуждения, система соответствующим образом масштабирует свои вычислительные усилия, сохраняя при этом эффективность за счет целенаправленного извлечения информации, а не обработки нерелевантных деталей среды.

Рисунок 9: Потребление токенов для сложного планирования обхода. Хотя SG² требует больших вычислительных затрат, он сохраняет эффективность, обрабатывая только релевантную для задачи информацию посредством итеративного извлечения, а не анализируя всю среду.

Значимость и будущие направления

SG² решает критические ограничения в современных системах рассуждения на основе LLM для структурированных сред. Мультиагентная архитектура с программным извлечением данных, управляемым схемой, предлагает надежное решение проблем, включая галлюцинации, перегрузку контекста и негибкие шаблоны доступа к информации, которые характерны для существующих подходов.

Успех фреймворка в различных задачах и его сохраняющиеся преимущества в производительности даже в ограниченных условиях предполагают широкое применение для воплощенных ИИ-приложений. Продемонстрированная способность работать с меньшими языковыми моделями, хотя и с пониженной производительностью, указывает на потенциал для создания более доступных и развертываемых систем.

Будущие направления исследований включают интеграцию дополнительных специализированных агентов (таких как верификаторы решений), изучение мультимодальных возможностей для более полного понимания окружающей среды и оптимизацию длин трассировки рассуждений для повышения эффективности. Парадигма программного извлечения может быть расширена на другие структурированные типы данных помимо графов сцен, потенциально обеспечивая аналогичные улучшения в запросах к базам данных, рассуждениях по графам знаний и других задачах обработки структурированной информации.

Эта работа закладывает основу для более сложных мультиагентных LLM-систем, которые могут эффективно ориентироваться в сложности реального мира, сохраняя при этом надежность и эффективность, необходимые для практического развертывания в робототехнике, виртуальных помощниках и приложениях умной среды.

😎 Следуй за белым кроликом 💊

📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇

Hubs: