Обновить

Agent Harness: одна LLM, разные результаты — в чем секрет?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.5K
Всего голосов 7: ↑7 и ↓0+7
Комментарии8

Комментарии 8

  1. Системные промпты. Каждый агент использует собственные инструкции, определяющие поведение модели: уровень автономности, стиль ответов, склонность к декомпозиции задач.

Системный промпт для модели задается в агенте (обвязке)?

Именно так. Еще агент может вызывать субагентов (subagents) со своими системными промптами.

Ради интереса можно посмотреть системные промпты различных AI-инструментов вот тут по ссылке: https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools/tree/main

Интересно. Просто я замечал заметно разное поведение одной и той же модели в разных агентах. Не уровень "мышления", а именно разные установки. Я то думал, что системный промпт им задается на серверах производителя.

Системный промпт на серверах производителя тоже может внедряться непосредственно перед попаданием полного промпта в модель. Это нужно, например, для соблюдения политик компании и ввода ограничений на поведение модели. Он как раз может быть одним для всех агентов, которые ее используют.

Однако за разное поведение одной и той же модели в разных агентах в частности отвечают системные промпты агента для этой модели.

Про механизмы верификации в статье написано буквально в двух местах:

  1. Анонс того что именно содержится в харнессе

  2. Глубокая цитата Конфуция на эту тему

А что это все таки за механизмы такие? Что значит "верифицировать"? Возможность запустить только что написанные тесты? Возможность запустить саму программу?

Чем это отличается от инструментов, которые покрыты другим пунктом?

Под верификацией тут понимается именно проверка написанного агентом кода. Так агент может убедиться, что написанный код отрабатывает верно и в случае необходимости исправить ошибки.

Смысл верификации один, но реализована она может быть с помощью разных инструментов. Набор из оригинального поста "Конфуция":

  • Запуск bash команды

  • Прогон тестов

  • Тестирования приложения в браузере или мобильном симуляторе

Таким образом, верификация имеется в виду как концепт, инструменты - как способ реализации верификации.

Обвязка - русское слово для harness

Спасибо! Обновил в статье

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации