Инженер Netflix Теджас Чопра разработал открытый инструмент Project Headroom, который сжимает контекст перед отправкой в языковую модель и за счёт этого помогает пользователям экономить на ИИ-запросах.
Проект Headroom работает с контекстом, который отправляется в языковую модель: историей переписки, логами, результатами работы инструментов, файлами, документацией и другими данными. Перед отправкой в LLM программа сжимает этот контекст и удаляет из него избыточную информацию. По оценке Чопры, до 90% токенов в таких данных могут быть фактически лишними для модели.
Идея проекта появилась после того, как Чопра получил счёт на $287 за использование Claude Sonnet в домашнем проекте. Речь шла о типичных задачах: отладке, рефакторинге, работе с MCP-инструментами и запросах к базе данных. После анализа расходов инженер выяснил, что значительная часть токенов уходит не на его собственные инструкции, а на машинный «мусор»: чрезмерно подробные JSON-схемы, вложенные шаблоны в API-ответах, повторяющиеся колонки баз данных и другую служебную информацию.
Чопра описывает такие данные как «сжимаемую информацию, маскирующуюся под текст». По его словам, проблема особенно заметна в агентных системах, где модель получает не только пользовательский запрос, но и большое количество технического контекста. Чем больше данных отправляется в контекстное окно, тем выше стоимость запроса и тем больше риск, что модель начнет хуже работать из-за перегрузки информацией.

