Comments 3
Спасибо, тема очень актуальная.
На что обратил внимание: Хотелось бы больше пруфов про провалы в середине конетекста. Не то, чтобы я отрицаю это, но современные модели очень сильно переработали механизмы внимания и кажется, это проблема стала намного меньше. И нерелевантный контекст стал меньше мешать. Было бы интересно увидеть свежие исследования, на основе которых вы делали выводы.
Почему я за это зацепился? Мне кажется, настоящая причина для сжатия контекста в большинстве случаев - цена. Современные модели могут и 1 миллион токенов скушать, но стоить это будет очень дорого. А вся эта история в таких подробностях не приносит столько пользы, сколько стоит денег. И есть некая sweet spot где лучше всего соотносится пользая/цена. Но про это вы не сказали почему-то.
Также, конечно, промпты для сжатия и суммаризации очень влияют на качество, тут было бы интереснее подробнее ваш взгляд (и опыт) узнать.
В нейробиологической аналогии:
Веса сети (обучение) = Навыки и язык (Долговременная память). Это то, как агент умеет думать. Это меняется только на этапе тренировки.
Контекстное окно (промпт) = Рабочая память (как оперативная память человека). Агент помнит, что вы сказали 5 минут назад, пока это умещается в окне.
Векторное хранилище (RAG) = Эпизодическая память (внешний жесткий диск). Агент может «вспомнить» документ, который вы загрузили вчера, даже если это не было частью его первоначального обучения.
Таким образом, «память агента» в современных фреймворках (LangGraph, AutoGen, CrewAI) — это сложная система, которая пытается эмулировать человеческую память, комбинируя фиксированные навыки (веса) с динамическим контекстом (окно) и внешними хранилищами (векторные БД).
Память ИИ‑агентов: как агенты запоминают, забывают и учатся