Pull to refresh

Comments 3

Спасибо, тема очень актуальная.

На что обратил внимание: Хотелось бы больше пруфов про провалы в середине конетекста. Не то, чтобы я отрицаю это, но современные модели очень сильно переработали механизмы внимания и кажется, это проблема стала намного меньше. И нерелевантный контекст стал меньше мешать. Было бы интересно увидеть свежие исследования, на основе которых вы делали выводы.

Почему я за это зацепился? Мне кажется, настоящая причина для сжатия контекста в большинстве случаев - цена. Современные модели могут и 1 миллион токенов скушать, но стоить это будет очень дорого. А вся эта история в таких подробностях не приносит столько пользы, сколько стоит денег. И есть некая sweet spot где лучше всего соотносится пользая/цена. Но про это вы не сказали почему-то.

Также, конечно, промпты для сжатия и суммаризации очень влияют на качество, тут было бы интереснее подробнее ваш взгляд (и опыт) узнать.

Важные замечания, спасибо! в 3 части, где будем осбирать агента, все ваши вопросы разберу

В нейробиологической аналогии:

  1. Веса сети (обучение) = Навыки и язык (Долговременная память). Это то, как агент умеет думать. Это меняется только на этапе тренировки.

  2. Контекстное окно (промпт) = Рабочая память (как оперативная память человека). Агент помнит, что вы сказали 5 минут назад, пока это умещается в окне.

  3. Векторное хранилище (RAG) = Эпизодическая память (внешний жесткий диск). Агент может «вспомнить» документ, который вы загрузили вчера, даже если это не было частью его первоначального обучения.

Таким образом, «память агента» в современных фреймворках (LangGraph, AutoGen, CrewAI) — это сложная система, которая пытается эмулировать человеческую память, комбинируя фиксированные навыки (веса) с динамическим контекстом (окно) и внешними хранилищами (векторные БД).

Sign up to leave a comment.

Articles