Комментарии 8
Системные промпты. Каждый агент использует собственные инструкции, определяющие поведение модели: уровень автономности, стиль ответов, склонность к декомпозиции задач.
Системный промпт для модели задается в агенте (обвязке)?
Именно так. Еще агент может вызывать субагентов (subagents) со своими системными промптами.
Ради интереса можно посмотреть системные промпты различных AI-инструментов вот тут по ссылке: https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools/tree/main
Интересно. Просто я замечал заметно разное поведение одной и той же модели в разных агентах. Не уровень "мышления", а именно разные установки. Я то думал, что системный промпт им задается на серверах производителя.
Системный промпт на серверах производителя тоже может внедряться непосредственно перед попаданием полного промпта в модель. Это нужно, например, для соблюдения политик компании и ввода ограничений на поведение модели. Он как раз может быть одним для всех агентов, которые ее используют.
Однако за разное поведение одной и той же модели в разных агентах в частности отвечают системные промпты агента для этой модели.
Про механизмы верификации в статье написано буквально в двух местах:
Анонс того что именно содержится в харнессе
Глубокая цитата Конфуция на эту тему
А что это все таки за механизмы такие? Что значит "верифицировать"? Возможность запустить только что написанные тесты? Возможность запустить саму программу?
Чем это отличается от инструментов, которые покрыты другим пунктом?
Под верификацией тут понимается именно проверка написанного агентом кода. Так агент может убедиться, что написанный код отрабатывает верно и в случае необходимости исправить ошибки.
Смысл верификации один, но реализована она может быть с помощью разных инструментов. Набор из оригинального поста "Конфуция":
Запуск bash команды
Прогон тестов
Тестирования приложения в браузере или мобильном симуляторе
Таким образом, верификация имеется в виду как концепт, инструменты - как способ реализации верификации.
Обвязка - русское слово для harness

Agent Harness: одна LLM, разные результаты — в чем секрет?