Обновить
1
Вадим@vadisun

Пользователь

Отправить сообщение

Хорошая мысль, что оценивать надо не модель, а всю систему. Без evals под реальные сценарии легко принять красивое демо за рабочий продукт.

Спасибо, хороший разбор. Для себя вынес простую мысль: агенту лучше ограничивать не только промптом, но и реальными правами.

Если он не должен трогать файлы, сеть или отправку данных, то этих действий у него просто не должно быть в инструментах. Было бы интересно увидеть отдельный чек-лист минимальных прав для таких систем.

Хороший разбор. особенно близко про критерии остановки, когда агент должен не сам продолжать, а вернуть задачу человеку. А обычно это задается через список запретов или отдельным шагом проверки перед самим действием?

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Менеджер проекта, Менеджер продукта
Средний
Управление проектами
Ведение переговоров
HTML
Adobe Photoshop
SQL
Python
REST
Базы данных
ООП