Новая методика, разработанная учёными из Чжэцзянского университета и Alibaba Group, наделяет агентов больших языковых моделей (LLM) динамической памятью, делая их более эффективными и результативными при решении сложных задач. Этот подход, получивший название Memp, обеспечивает агентов «процедурной памятью», которая непрерывно обновляется по мере накопления опыта — подобно тому, как люди учатся через практику.
Memp формирует рамку для обучения в течение всей «жизни» агента, благодаря чему ему не приходится каждый раз начинать с нуля при работе с новой задачей. Вместо этого он становится всё более опытным и продуктивным, встречаясь с новыми ситуациями в реальной среде, что особенно важно для надёжной автоматизации в бизнесе.
Дисклеймер: это вольная адаптция статьи издания VentureBeat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.
Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.
Зачем ИИ-агентам процедурная память
LLM-агенты обладают высоким потенциалом в автоматизации сложных многошаговых бизнес-процессов. На практике такие задачи оказываются весьма уязвимыми: неожиданные сбои в сети, изменения интерфейсов или структур данных способны полностью сорвать процесс. В результате существующим агентам нередко приходится начинать выполнение заново, что оборачивается значительными затратами времени и ресурсов
Многие сложные задачи при внешних различиях имеют общие структурные закономерности. Вместо того чтобы заново осваивать их, агент должен уметь извлекать и использовать прошлый опыт — как успешный, так и неудачный. Для этого необходима особая форма памяти — процедурная. У людей она отвечает за навыки, которые становятся автоматическими с практикой: набор текста, езда на велосипеде и т. д.

Современные агентные системы обычно лишены этой способности. Их процедурные знания задаются вручную разработчиками и фиксируются в жёстких шаблонах промптов или внутри параметров модели, которые сложно и дорого обновлять. Даже существующие архитектуры с «дополненной памятью» дают лишь грубые абстракции и не отвечают на вопросы, как именно должны формироваться, индексироваться, корректироваться и со временем оптимизироваться навыки агента.
Авторы исследования подчеркивают: «Пока не существует строгого способа измерить, насколько эффективно агент развивает свой набор процедурных умений, или гарантировать, что новый опыт улучшает, а не ухудшает его работу».
Как работает Memp
Memp — это независимая от конкретных задач архитектура, в основе которой лежит процедурная память. Она функционирует в трёх непрерывных циклах: построение, извлечение и обновление памяти.
Память формируется на основе прошлых «траекторий» агента — его шагов при выполнении задач. Эти траектории могут храниться в подробном виде или преобразовываться в абстрактные сценарии. При извлечении агент ищет наиболее подходящий опыт для новой задачи — например, через векторный поиск или выделение ключевых слов.
Главное звено системы — механизм обновления. Memp включает стратегии, которые позволяют памяти эволюционировать: добавление нового опыта, фильтрация успешных исходов и, самое важное, корректировка ошибок на основе прошлых неудач.

Таким образом, Memp формирует динамическую, живую память, которая делает агентов более надёжными при решении долгосрочных задач. Этот подход созвучен другим исследованиям — например, Mem0, где важные факты из длинных диалогов сохраняются в виде структурированных знаний, или A-MEM, позволяющему агентам создавать и связывать «заметки» в ходе работы. Однако, как отмечает один из авторов Руннан Фан, отличие Memp принципиально:
«Mem0 и A-MEM помогают запомнить, что произошло в рамках отдельной траектории или разговора. Memp же фокусируется на процедурной памяти между задачами. Он сохраняет знание как действовать, позволяя не начинать поиск решений заново каждый раз».
«Конденсируя успешные сценарии в универсальные процедурные шаблоны, Memp повышает успешность и сокращает число шагов, — продолжает Фан. — А механизм обновления гарантирует, что эта память постоянно совершенствуется: ведь и для агентов практика делает мастерство».
Преодоление проблемы «холодного старта»
Возникает практический вопрос: как агент накапливает начальную память, если у него нет идеальных примеров для обучения? Исследователи предлагают решение: вместо эталонной «золотой» траектории достаточно определить метрику оценки качества. Эта метрика может быть набором правил или самой LLM-моделью, которая выставляет баллы за выполнение. Далее мощные модели исследуют пространство задач, и в память сохраняются траектории с наивысшими оценками. Такой подход быстро формирует стартовый набор полезных воспоминаний, позволяя новому агенту работать без долгой ручной настройки.
Практическое применение
Исследователи протестировали Memp с использованием LLM уровня GPT-4o, Claude 3.5 Sonnet и Qwen2.5 на сложных задачах — от бытовых сценариев в ALFWorld до поиска информации в TravelPlanner. Результаты показали: агенты с процедурной памятью действуют значительно эффективнее, избегая бесполезных попыток и экономя шаги и токены.
Во время тестирования агенты с Memp не только демонстрировали более высокий уровень успешности, но и становились значительно эффективнее. Им удалось избежать бесплодных поисков и метода проб и ошибок, что привело к существенному сокращению как количества шагов, так и потребления токенов для выполнения задач.

Одним из ключевых открытий для корпоративных приложений стало то, что процедурная память переносима. В одном из экспериментов процедурная память, сформированная мощной моделью GPT-4o, была передана гораздо меньшей модели Qwen2.5-14B. В результате младшая модель получила заметный прирост в производительности, повысив уровень успешности и сократив число шагов, необходимых для решения задач.
По словам Фана, это объясняется тем, что небольшие модели хорошо справляются с простыми одношаговыми действиями, но испытывают трудности при планировании и рассуждениях на длинной дистанции. Процедурная память старшей модели фактически восполняет этот пробел. Это свидетельствует о том, что знания можно получать с помощью передовых моделей, а затем переносить на более компактные и экономичные, не теряя преимуществ накопленного опыта.
Путь к настоящим автономным агентам
Memp делает возможным постоянное накопление и уточнение процедурных знаний в реальной среде, что придаёт агентам «постепенное, почти линейное освоение задач». Однако для полной автономии предстоит преодолеть ещё одно препятствие: многие реальные задания не имеют очевидного критерия успеха. Чтобы улучшаться, агент должен понимать, насколько хорошо он справился.
Фан считает, что будущее — за использованием LLM-as-judge. Сегодня для этого часто применяются жёстко прописанные правила, но они уязвимы и плохо масштабируются. LLM в роли арбитра сможет давать тонкую обратную связь, помогая агентам самообучаться на сложных и субъективных задачах. Это сделает процесс обучения более масштабируемым и надёжным, открывая путь к созданию устойчивых, адаптивных и по-настоящему автономных ИИ-агентов для корпоративной автоматизации.