chasing_nlp8 апр в 13:15

Agent Harness: одна LLM, разные результаты — в чем секрет?

Простой

6 мин

10K

Natural Language Processing * Искусственный интеллектМашинное обучение * Программирование *

Обзор

Из песочницы

Комментарии 8

d3d14 8 апр в 18:00

Системные промпты. Каждый агент использует собственные инструкции, определяющие поведение модели: уровень автономности, стиль ответов, склонность к декомпозиции задач.

Системный промпт для модели задается в агенте (обвязке)?

chasing_nlp 8 апр в 21:46

Именно так. Еще агент может вызывать субагентов (subagents) со своими системными промптами.

Ради интереса можно посмотреть системные промпты различных AI-инструментов вот тут по ссылке: https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools/tree/main

d3d14 9 апр в 03:52

Интересно. Просто я замечал заметно разное поведение одной и той же модели в разных агентах. Не уровень "мышления", а именно разные установки. Я то думал, что системный промпт им задается на серверах производителя.

chasing_nlp 9 апр в 06:45

Системный промпт на серверах производителя тоже может внедряться непосредственно перед попаданием полного промпта в модель. Это нужно, например, для соблюдения политик компании и ввода ограничений на поведение модели. Он как раз может быть одним для всех агентов, которые ее используют.

Однако за разное поведение одной и той же модели в разных агентах в частности отвечают системные промпты агента для этой модели.

thethee 9 апр в 04:56

Про механизмы верификации в статье написано буквально в двух местах:

Анонс того что именно содержится в харнессе
Глубокая цитата Конфуция на эту тему

А что это все таки за механизмы такие? Что значит "верифицировать"? Возможность запустить только что написанные тесты? Возможность запустить саму программу?

Чем это отличается от инструментов, которые покрыты другим пунктом?

chasing_nlp 9 апр в 06:53

Под верификацией тут понимается именно проверка написанного агентом кода. Так агент может убедиться, что написанный код отрабатывает верно и в случае необходимости исправить ошибки.

Смысл верификации один, но реализована она может быть с помощью разных инструментов. Набор из оригинального поста "Конфуция":

Запуск bash команды
Прогон тестов
Тестирования приложения в браузере или мобильном симуляторе

Таким образом, верификация имеется в виду как концепт, инструменты - как способ реализации верификации.

Suor 9 апр в 07:52

Обвязка - русское слово для harness

chasing_nlp 10 апр в 07:17

Спасибо! Обновил в статье

Зарегистрируйтесь на Хабре, чтобы оставить комментарий