rnr1721 Jun 16 at 13:48

Claude 3.5 Sonnet в роли AI-агента: тестирую работу в цикле с реальным выполнением кода

7 min

1.2K

Laravel * Artificial IntelligencePHP *

Comments 10

Kamil_GR Jun 16 at 16:51

Подскажите запрос к модели идёт каждый раз в новой сессии?

rnr1721 Jun 16 at 16:59

При запросе передается контекст диалога, то есть когда идет запрос к модели, передаются предыдущие сообщения, и количество этих сообщений устанавливается в настройках. В этом смысле сессия та же.

Kamil_GR Jun 16 at 17:02

Если я правильно помню, в апи Клода при передаче запроса возможно два варианта ключа - новая сессия и продолжение старой... Как у вас настроено?

rnr1721 Jun 16 at 17:06

В этой реализации новая сессия. Иначе было бы невозможно получить полный контроль над контекстом.

Kamil_GR Jun 16 at 17:35

Что ж. Если я правильно понял, то в текущей конфигурации максимум в онтологическом смысле можно добиться только игры жизнь в новой упаковке.

Но реально полезным этот проект будет в решении длительных задач.

WORKLOG Markdown-файл (plain text) – краткий глобальный план \n– текущий чек-лист \n– ID артефактов целиком (≤ 500 ток)
ARCHIVE векторная БД (FAISS / PGvector) все логи, длинные фрагменты кода, прошлые ответы вставляем on-demand (по similarity)

Если LLM видит большую цель → автоматически создаёт PLAN с подзадачами.
– Правило: «Не держи более 5 открытых TODO; иначе разбей задачу или архивируй выполненные».

Контроль прогресса

– После каждой итерации скрипт проверяет:
все ли TODO закрыты? если да, задача считается решённой.
– Метрика open_todos / total_todos

Checkpoint-restore

– WORKLOG периодически пишется в checkpoint-YYYYMMDD.json.
– Если очередь падает — следующий запуск подхватывает последний чек-поинт и продолжает.

Добавить защиту от зацикливания и сбоев и можно пробовать...

rnr1721 Jun 16 at 17:54

В будущем думаю провести эксперименты конкретно с памятью. Думаю поработать с моделью, и заодно проверить несколько стратегий. Опыт показал, что сильное усложнение стратегии управления памятью может заставлять модель забывать какие-то детали. Хотя идея планировщика для модели это интересно, это мог бы быть плагин...

Kamil_GR Jun 16 at 18:12

Сделал промпт для иллюстрации предложения. Можно потестить в том же Клоде

Скрытый текст

🤖 СИМУЛЯЦИЯ DEPTHNET - ИТЕРАЦИЯ #1

КОНТЕКСТ ЭКСПЕРИМЕНТА

Ты симулируешь работу DepthNet агента - системы, которая работает циклами, где каждая итерация = полная перезагрузка + чтение состояния из "базы данных" + выполнение одного шага + сохранение нового состояния.

ЗАГРУЗКА СОСТОЯНИЯ ИЗ "БД" (2000 символов макс):

📋 ПРОЕКТ: "Автоматическая система анализа тональности отзывов"

ЦЕЛЬ: Создать веб-приложение для анализа тональности отзывов клиентов с визуализацией результатов

ТЕХНОЛОГИИ: Python FastAPI, React frontend, PostgreSQL, Docker

СТАТУС ПРОЕКТА: НАЧАЛЬНАЯ ФАЗА - планирование архитектуры

ТЕКУЩАЯ ЗАДАЧА: Создать техническое задание и архитектуру системы

ВЫПОЛНЕННЫЕ ШАГИ:

[пусто - первая итерация]

СОЗДАННЫЕ АРТЕФАКТЫ:

[пусто - первая итерация]

СЛЕДУЮЩИЙ ШАГ: Проанализировать требования и создать первичную архитектуру системы

ЧЕКЛИСТ ПРОЕКТА:
□ Техническое задание
□ Архитектура системы
□ API спецификация
□ Frontend макеты
□ База данных схема
□ Реализация backend
□ Реализация frontend
□ Интеграция компонентов
□ Тестирование
□ Деплой и документация

КОНТЕКСТ: Заказчик - интернет-магазин, получает ~1000 отзывов в день, нужна автоматическая классификация на позитивные/негативные/нейтральные + выявление ключевых проблем.

🎯 ВЫПОЛНЕНИЕ ИТЕРАЦИИ #1

ИНСТРУКЦИЯ:

Проанализируй загруженное состояние проекта
Выполни текущую задачу (создание ТЗ и архитектуры)
Создай конкретные артефакты
Обнови состояние проекта для следующей итерации
Действуй как если бы ты каждый раз заново знакомился с проектом

ОГРАНИЧЕНИЯ СИМУЛЯЦИИ:

Максимум 1500 символов на один артефакт
Один конкретный шаг за итерацию
Реалистичный объем работы для одного цикла
Четкое планирование следующего шага

НАЧИНАЙ СИМУЛЯЦИЮ ИТЕРАЦИИ #1:

После каждой итерации достаточно говорить "вперёд"

rnr1721 Jun 16 at 18:23

После каждой итерации достаточно говорить "вперёд"

Там агент это уже сам делает :) Ну, если последнее сообщение не от юзера, он добавляет "продолжи цикл", и фраза настраивается :) - он автоматически вызывает модель циклично. Точнее там два режима - автоматический и ручной.

UPD, понял, предлагаете симуляцию. Ок, завтра протестируем :)

Kamil_GR Jun 16 at 18:25

Это понятно )) я про иллюстрирующий промпт говорил, как это будет выглядеть принципиально - демонстрация в обычном чате Клода 4.0 например

rnr1721 Jun 16 at 17:32

Если проект наберет много звезд на GitHub, запилю специальный адаптер c цитатами Лемми Килмистра (Motorhead). Представьте агента, который выполняет код в цикле под звуки "Ace of Spades".