Anthropic: как научить ИИ-агентов работать днями без потери прогресса / Хабр

Команда Anthropic опубликовала подробное исследование о том, как научить ИИ-агентов работать часами и днями, не теряя прогресс после каждой сессии. Проблема старая: каждый запуск модели — это история без памяти о предыдущем контексте. В рамках Claude Agent SDK инженеры нашли способ заставить агентов продолжать работу так, будто они один непрерывный процесс.

Почему агенты «забывают» проекты

Современные модели опираются на ограниченные контекстные окна. Когда задача выходит за их пределы — например, создание веб-приложения, — агент неизбежно теряет часть истории. Компакция контекста помогает, но не решает проблему полностью.

В экспериментах Claude допускал два типичных сбоя:

Пытался сделать всё сразу, начинал реализацию большой фичи, заканчивал окно токенов и передавал управление следующей сессии в полуразрушенном состоянии.
Преждевременно объявлял победу, видя часть готовых фич, и решал, что работа завершена.

Двухкомпонентное решение

Anthropic разложила задачу на две роли — и это сильно улучшило устойчивость:

1. Initializer agent.

Создаёт структуру проекта при первом запуске:

init.sh;
claude-progress.txt с логом работы;
первичный git-коммит;
файл-список всех требований к проекту (часто сотни фич), все помечены как не реализованные.

{
    "category": "functional",
    "description": "New chat button creates a fresh conversation",
    "steps": [
      "Navigate to main interface",
      "Click the 'New Chat' button",
      "Verify a new conversation is created",
      "Check that chat area shows welcome state",
      "Verify conversation appears in sidebar"
    ],
    "passes": false
  }

2. Coding agent.

Каждая следующая сессия:

выбирает одну фичу;
делает инкрементальные изменения;
оставляет репозиторий в чистом, рабочем состоянии;
пишет git-коммит и обновляет claude-progress.txt.

Такой workflow позволяет следующему агенту «прийти на смену» и сразу понимать, что сделано, что сломано и что делать дальше.

Отдельное внимание уделили файлу с фичами в формате JSON. Агенту строго запрещено менять или удалять тесты: он может только переключать поле passes после успешной проверки. Такой подход оказался намного стабильнее использования Markdown — модель меньше ломает структуру.

Тестирование: как заставить ИИ проверять себя как человек

Без жёсткого запроса на end-to-end-тестирование агенты отмечали задачи как выполненные, даже если фича не работала полностью. Anthropic встроила браузерную автоматизацию через Puppeteer MCP: Claude запускает локальный сервер, открывает страницу, кликает кнопки, отправляет сообщения и получает ответы — как реальный пользователь.

Это значительно уменьшило число скрытых багов.

Как проходит типичная сессия

Запуск Coding Agent начинается с рутины, знакомой каждому разработчику:

pwd;
чтение git-лога;
чтение claude-progress.txt;
просмотр списка фич;
запуск init.sh и dev-сервера;
базовая проверка чата, загрузки диалогов, переключения темы и т. д.

Если базовые функции сломаны — агент сначала чинит их, а не продолжает разработку поверх ошибок.

Чего удалось добиться

Anthropic выделила четыре типичных сбоя и показала, как новый подход решает их:

Проблема	Решение Initializer	Решение Coding Agent
Агент объявляет проект завершённым	Создание списка всех фич	Выбор одной фичи и работа только над ней
Среда разрушается между сессиями	Начальный git-репо + прогресс-файл	Каждый запуск: чтение логов, базовое тестирование
Фичи отмечаются как готовые преждевременно	Жёсткая спецификация в JSON	Проверка через браузерную автоматизацию
Агент не знает, как запустить проект	`init.sh`	Использование скрипта при старте

Anthropic утверждает: такой подход существенно повышает надёжность и помогает моделям работать над крупными задачами почти бесконечно — пока остаются фичи, которые надо реализовать.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Anthropic: как научить ИИ-агентов работать днями без потери прогресса