Пост @Raicon — Программирование

26 дек 2025 в 08:524.2K

Программирование * Управление разработкой * Развитие стартапаУправление продуктом * Искусственный интеллект

Неделю назад выступал с темой MCP сервера и как можно решить проблему с забиванием контекста как при старте диалога, так и при последующем общении через MCP сервера

Это больше походит на исследовательскую работу, а не на мой каждодневный сценарий использования. Мне было интересно, до скольки токенов можно сжать диалог без ухудшения качества

Вот, можете ознакомиться ⤵️⤵️⤵️

Давайте для начала о том, что такое MCP

MCP — протокол, который позволяет LLM подключаться к внешним сервисам: Notion, GitHub, Jira, Google Analytics, любой сервис с API. Один стандартный разъём вместо зоопарка интеграций — как USB для AI.
Протокол создали в Anthropic в ноябре 2024, в декабре 2025 передали в Linux Foundation с поддержкой OpenAI, Google, Microsoft и AWS. Де-факто стандарт индустрии. Вот тут есть каталог серверов, можете глянуть

Я уже писал про MCP ранее, тоже можете глянуть

--------------

Но у MCP есть две неочевидные проблемы, на которые я наткнулся после нескольких месяцев активного использования.

🛸 Проблема №1: Tools съедают контекст до старта

Предзагруженные MCP Tools занимают Context Window ещё до первого сообщения. Как системный промпт — уже там, когда вы только открыли чат.

Конкретные цифры из моих замеров:

Apify MCP — 7 инструментов, ~11.8k токенов
GitHub Official MCP — 40 инструментов, ~25-30k токенов
Несколько серверов вместе — легко съедают 40-70k токенов

При контексте в 200k это уже 20-35% бюджета — и вы ещё ничего не спросили.

🛸 Проблема №2: JSON забивает контекст в процессе

MCP-сервер — это переброска JSON-запросов между LLM и сервисом. Каждый вызов инструмента генерирует запрос и ответ, которые остаются в истории чата. Эти JSON часто громоздкие — особенно ответы с данными. Контекст забивается не на старте, а по ходу общения.

Почему это важно

Популярные модели имеют Context Window 128-200k токенов. Это весь бюджет чата: системные промпты, знания о вас, файлы, коннекторы. Что не влезает — забывается.

Хуже того: чем больше загружено в контекст, тем чаще модель теряет детали. В тестах на поиск 8 фактов GPT-5.1 падает с 65% до 30% при заполнении до 100k токенов. Даже более мощная GPT-5.2 проседает с 95% до 70%.

То есть проблема не только в лимите, но и в качестве работы модели при забитом контексте.

Решение для проблемы №1: Dynamic MCP

Docker Dynamic MCP — подключаем серверы не заранее, а динамически, во время разговора.

Например, вместо 40+ инструментов GitHub в контексте постоянно — лёгкий шлюз с базовыми командами:

mcp-find — найти сервер в каталоге
mcp-add — подключить к текущей сессии
mcp-exec — выполнить инструмент
mcp-remove — отключить сервер

Базовая нагрузка: ~4k токенов вместо 40-70k. Серверы подключаются по требованию и удаляются, когда больше не нужны. Работает с каталогом Docker MCP, где уже 300+ верифицированных серверов.

Нужно установить Desktop Client и в настройках Beta Features включить Enable Docker MCP Toolkit

Решение проблемы №2: запускать MCP сервера в SubAgents

SubAgents из Claude Code выполняют запрос в изолированном контексте, возвращая только результат.

Вся грязная работа — поиск серверов, подключение, вызовы инструментов, парсинг JSON-ответов — происходит в отдельном контексте подагента. В основной контекст попадает только чистый финальный ответ.

Claude Code (основной контекст)
         │
         ▼ Запрос
    ┌─────────────┐
    │  SubAgent   │ ← вся работа с MCP
    └─────────────┘
         │
         ▼ Только результат
Claude Code (чистый контекст)

Итог: ~70k токенов экономии = 35% контекста свободно для реальной работы

Для полного описания всего этого нужна большая статья, так как без картинок и примеров суть идеи может быть непонятна