Комментарии 2
Спасибо, тема очень актуальная.
На что обратил внимание: Хотелось бы больше пруфов про провалы в середине конетекста. Не то, чтобы я отрицаю это, но современные модели очень сильно переработали механизмы внимания и кажется, это проблема стала намного меньше. И нерелевантный контекст стал меньше мешать. Было бы интересно увидеть свежие исследования, на основе которых вы делали выводы.
Почему я за это зацепился? Мне кажется, настоящая причина для сжатия контекста в большинстве случаев - цена. Современные модели могут и 1 миллион токенов скушать, но стоить это будет очень дорого. А вся эта история в таких подробностях не приносит столько пользы, сколько стоит денег. И есть некая sweet spot где лучше всего соотносится пользая/цена. Но про это вы не сказали почему-то.
Также, конечно, промпты для сжатия и суммаризации очень влияют на качество, тут было бы интереснее подробнее ваш взгляд (и опыт) узнать.

Память ИИ‑агентов: как агенты запоминают, забывают и учатся