Исследователи из Китая и Гонконга представили новую архитектуру памяти для ИИ‑агентов, созданную, чтобы минимизировать потерю информации во время долгих диалогов.

Память остаётся одной из самых уязвимых сторон современных ИИ‑систем. Когда беседы затягиваются или задачи становятся многошаговыми, модели неизбежно упираются в пределы контекстного окна или попросту теряют нить — явление, которое называют «контекстным угасанием» (context rot).

В новой работе учёные представляют систему под названием general agentic memory (GAM). Она сочетает сжатие данных с механизмом глубокого исследования — подходом к памяти, напоминающим just‑in‑time compilation в программировании, когда оптимизация выполняется ровно в тот момент, когда код нужен.

Прежние методы опирались на статические заранее созданные сводки, и, по словам авторов, это неизбежно приводило к потере смысла: то, что казалось второстепенным при сохранении, позже может оказаться ключевым — но к тому времени нужная деталь уже оказалась сплющена в аккуратном, но неполном резюме.

Двухагентная архитектура

GAM построена как двухкомпонентная архитектура: здесь есть Memorizer и Researcher. Memorizer работает фоном, пока идёт взаимодействие. Он создаёт краткие сводки, но параллельно сохраняет полную историю диалога в базе данных под названием page store. Разговор разбивается на отдельные «страницы», снабжённые контекстными метками для удобства дальнейшего поиска.

Чтобы не терять данные в долгих беседах, GAM разделяет работу между Memorizer, который архивирует историю, и Researcher, извлекающим нужные детали по запросу
Чтобы не терять данные в долгих беседах, GAM разделяет работу между Memorizer, который архивирует историю, и Researcher, извлекающим нужные детали по запросу

Researcher же включается только тогда, когда появляется конкретный запрос. Вместо прямого поиска по памяти он проводит настоящее глубокое исследование: анализирует вопрос, строит стратегию, выбирает инструменты и тщательно просматривает page store. Использует три метода — векторный поиск для смысловых связей, BM25 для точных совпадений и прямой доступ по идентификаторам страниц.

Преимущество над RAG и моделями с длинным контекстом

Систему сравн��ли с классическими подходами, включая retrieval‑augmented generation (RAG) и модели с огромными контекстами, такие как ChatGPT 4o‑mini и Qwen2.5 14B.

Согласно статье, GAM опередила конкурентов во всех тестах. Наибольший разрыв проявился в заданиях, где требовалось связать информацию, разнесённую по большому числу шагов. В бенчмарке RULER, отслеживающем переменные в длинных последовательностях, GAM набрала свыше 90% точности, тогда как RAG‑подходы и другие хранилища систематически проваливались.

Код и датасеты проекта доступны на GitHub.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник