
Ученые института AIRI предложили метод, который помогает ИИ-агентам быстрее адаптироваться к новым условиям работы без дополнительного дообучения. Идея в том, чтобы модель могла сама определить, в какой среде она оказалась, и выбрать подходящую стратегию поведения.
Это одна из ключевых проблем физического ИИ и робототехники. Модель можно хорошо обучить в симуляции, но в реальном мире условия постоянно меняются: появляются препятствия, меняется сцепление с поверхностью, структура пространства, физические параметры среды или поведение других участников. Из-за этого качество работы агента может заметно падать.
Один из подходов к таким задачам — Forward-Backward. Он помогает агенту прогнозировать возможные будущие состояния и выбирать путь к цели. Но в нестабильных условиях у него есть слабое место: модель может усреднять разные сценарии развития событий и из-за этого выбирать неудачные действия.
В AIRI расширили базовую архитектуру двумя модификациями — Belief-FB и Rotation-FB.
Belief-FB помогает модели по последовательности наблюдений понять, в какой среде она находится. Проще говоря, агент не просто реагирует на текущий кадр или состояние, а пытается определить скрытые параметры окружения.
Rotation-FB отвечает за разделение стратегий для разных условий. Это нужно, чтобы варианты поведения не смешивались между собой: например, стратегия для одной динамики среды не мешала стратегии для другой.
Метод проверили в задачах навигации и управления в дискретных и непрерывных средах. В экспериментах менялись структура пространства и физические параметры. Подход сравнивали с базовыми методами как в знакомых условиях, которые были во время обучения, так и в новых конфигурациях, которые агент раньше не видел.
По итогам экспериментов качество выполнения задач выросло почти в два раза по сравнению с базовыми подходами. Визуализация внутренних представлений также показала, что модель действительно разделяет разные типы динамики среды, а не просто повторяет заученные действия.
В AIRI планируют развивать направление непрерывной адаптации: исследовать, как агенты могут сталкиваться с новыми средами, не теряя уже полученные навыки и не требуя постоянного переобучения. Отдельный сценарий — адаптация к другим агентам, людям или роботам, с которыми нужно взаимодействовать в реальном времени, например на складах или дорогах общего пользования.
