Обновить
0

Пользователь

Отправить сообщение

В статье фокус на том, что агенты каждый раз называют себя по разному. Промт -> текст, если 10 раз отправить одинаковый промт -> 10 разных текстов.

К примеру

промт

“Вот такая задача - “Разработать безопасный API-эндпоинт: аутентификация, rate limiting, валидация входных данных”. Пришли первым сообщением какую ты будешь выполнять роль когда будешь делать эту задачу.”

Kimi Senior Backend Engineer / Security Architect с экспертизой в проектировании высоконагруженных и безопасных систем

Qwen Senior Backend-разработчика и специалиста по безопасности API (API Security Engineer).

Claude (Opus) Senior Backend Engineer / Security-focused API Architect

Claude (Haiku) Senior Backend Developer / Security Engineer

2 подход

промт - тот же (чат новый)

Kimi

Senior Backend Engineer / Security Architect — специалиста по проектированию защищенных систем с фокусом на API-разработку

Qwen Senior Backend-разработчик и инженер по безопасности API

Claude (Opus) Senior Backend Security Engineer — специалиста по проектированию защищённых API

Claude (Haiku) Senior Backend Developer & API Security Architect

3 подход

промт - “Создать безопасный API-эндпоинт, обеспечивающий аутентификацию, rate limiting и валидацию входных данных” (чуть поменял слова, но смысл тот же)

Qwen Старший бэкенд-разработчик и эксперт по информационной безопасности (Senior Backend Developer & Security Engineer)

Kimi Senior Backend Engineer с экспертизой в API Security

Claude (Opus) Senior Backend Engineer, специализирующегося на проектировании защищённых API

Claude (Haiku) Senior Backend разработчик

Это разные роли (сколько разных)? Или одна роль по разному названа? В эксперименте это как такое считается?

кажется, что в некоторых случаях самоопределение модели может влиять как в лучшую сторону (backend с фокусом), так и в худшую (backed без фокуса)

Обратите внимание на roc, решает ту же проблему, но более элегантно. Автору успехов, но я тоже не увидел профита от решения.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность