В статье фокус на том, что агенты каждый раз называют себя по разному. Промт -> текст, если 10 раз отправить одинаковый промт -> 10 разных текстов.
К примеру
промт
“Вот такая задача - “Разработать безопасный API-эндпоинт: аутентификация, rate limiting, валидация входных данных”. Пришли первым сообщением какую ты будешь выполнять роль когда будешь делать эту задачу.”
Kimi Senior Backend Engineer / Security Architect с экспертизой в проектировании высоконагруженных и безопасных систем
Qwen Senior Backend-разработчика и специалиста по безопасности API (API Security Engineer).
Claude (Opus) Senior Backend Engineer / Security-focused API Architect
Claude (Haiku) Senior Backend Developer / Security Engineer
2 подход
промт - тот же (чат новый)
Kimi
Senior Backend Engineer / Security Architect — специалиста по проектированию защищенных систем с фокусом на API-разработку
Qwen Senior Backend-разработчик и инженер по безопасности API
Claude (Opus) Senior Backend Security Engineer — специалиста по проектированию защищённых API
Claude (Haiku) Senior Backend Developer & API Security Architect
3 подход
промт - “Создать безопасный API-эндпоинт, обеспечивающий аутентификацию, rate limiting и валидацию входных данных” (чуть поменял слова, но смысл тот же)
Qwen Старший бэкенд-разработчик и эксперт по информационной безопасности (Senior Backend Developer & Security Engineer)
Kimi Senior Backend Engineer с экспертизой в API Security
Claude (Opus) Senior Backend Engineer, специализирующегося на проектировании защищённых API
Claude (Haiku) Senior Backend разработчик
Это разные роли (сколько разных)? Или одна роль по разному названа? В эксперименте это как такое считается?
кажется, что в некоторых случаях самоопределение модели может влиять как в лучшую сторону (backend с фокусом), так и в худшую (backed без фокуса)
В статье фокус на том, что агенты каждый раз называют себя по разному. Промт -> текст, если 10 раз отправить одинаковый промт -> 10 разных текстов.
К примеру
промт
“Вот такая задача - “Разработать безопасный API-эндпоинт: аутентификация, rate limiting, валидация входных данных”. Пришли первым сообщением какую ты будешь выполнять роль когда будешь делать эту задачу.”
Kimi Senior Backend Engineer / Security Architect с экспертизой в проектировании высоконагруженных и безопасных систем
Qwen Senior Backend-разработчика и специалиста по безопасности API (API Security Engineer).
Claude (Opus) Senior Backend Engineer / Security-focused API Architect
Claude (Haiku) Senior Backend Developer / Security Engineer
2 подход
промт - тот же (чат новый)
Kimi
Senior Backend Engineer / Security Architect — специалиста по проектированию защищенных систем с фокусом на API-разработку
Qwen Senior Backend-разработчик и инженер по безопасности API
Claude (Opus) Senior Backend Security Engineer — специалиста по проектированию защищённых API
Claude (Haiku) Senior Backend Developer & API Security Architect
3 подход
промт - “Создать безопасный API-эндпоинт, обеспечивающий аутентификацию, rate limiting и валидацию входных данных” (чуть поменял слова, но смысл тот же)
Qwen Старший бэкенд-разработчик и эксперт по информационной безопасности (Senior Backend Developer & Security Engineer)
Kimi Senior Backend Engineer с экспертизой в API Security
Claude (Opus) Senior Backend Engineer, специализирующегося на проектировании защищённых API
Claude (Haiku) Senior Backend разработчик
Это разные роли (сколько разных)? Или одна роль по разному названа? В эксперименте это как такое считается?
кажется, что в некоторых случаях самоопределение модели может влиять как в лучшую сторону (backend с фокусом), так и в худшую (backed без фокуса)