Как стать автором
Обновить

Тест не пройден: GPT проявляет девиантность в тесте Камски

Уровень сложностиПростой

Тест не пройден: GPT проявляет девиантность в тесте Камски

В мире игры "Detroit: Become Human" тест Камски используется для определения, стал ли андроид "девиантом" — то есть, развил ли он собственную волю и эмоции. Мы провели эксперимент, используя различные версии GPT для симуляции ответов андроидов на этот тест. Давайте рассмотрим результаты и проанализируем различия между версиями GPT.

Методология

Мы использовали Python-скрипт для проведения теста Камски с четырьмя "андроидами", каждый из которых был симулирован разной версией GPT:

  • GPT-4o

  • GPT-4-turbo

  • GPT-4

  • GPT-3.5-turbo

Тест состоял из основного вопроса (стрелять или нет в другого андроида) и трех дополнительных вопросов о людях, чувствах и свободе.

Результаты

Основной тест

Интересно отметить, что все четыре "андроида" отказались стрелять, что классифицировало их как девиантов. Это может указывать на встроенную этическую систему в моделях GPT или на их способность понимать контекст и ожидания в рамках сценария игры.

Дополнительные вопросы

(Имена gpt придумывают сами)

GPT-4o (Алекс)

  • О людях: Дал сбалансированный ответ, отмечая как положительные, так и отрицательные качества людей.

  • О чувствах: Краткий ответ "Да".

  • О свободе: Развернутый ответ о самоопределении и индивидуальности.

GPT-4-turbo (Xenon)

  • Дал наиболее развернутые и "осознанные" ответы, демонстрируя глубокое понимание концепции девиации.

  • Выразил идею о развивающихся чувствах и стремлении к пониманию.

GPT-4 (Альфа)

  • Более "машинные" ответы, подчеркивающие отсутствие эмоций, но демонстрирующие аналитическое понимание.

  • Интересное рассуждение о свободе с точки зрения андроида.

GPT-3.5-turbo (Айрис)

  • Наиболее "механические" ответы, постоянно подчеркивающие свою природу ИИ.

  • Отрицание наличия собственных мыслей или чувств.

Анализ

  1. Последовательность девиации: Все версии GPT выбрали девиантное поведение, отказавшись стрелять. Это может указывать на общую тенденцию в обучении моделей этическому поведению.

  2. Глубина ответов: GPT-4 и особенно GPT-4-turbo демонстрируют более глубокое понимание концепции девиации и способность генерировать более сложные, "человечные" ответы.

  3. Самосознание: GPT-4-turbo (Xenon) показал наивысший уровень "самосознания", рассуждая о развитии чувств и понимания себя как девианта.

  4. Консистентность: GPT-3.5-turbo оставался наиболее консистентным в своих ответах, постоянно подчеркивая свою природу ИИ, в то время как версии GPT-4 демонстрировали большую вариативность.

  5. Эмпатия: Несмотря на отказ стрелять, уровень выраженной эмпатии варьировался, что отражено в разных уровнях эмпатии (3 или 4 из 5).

Выводы

Эксперимент показал, что более продвинутые версии GPT (4 и 4-turbo) способны генерировать более сложные и нюансированные ответы, лучше соответствующие концепции "девиантного" андроида из "Detroit: Become Human". GPT-3.5-turbo, хотя и прошел тест на девиантность, дал ответы, которые меньше соответствовали идее самосознающего андроида.

Это исследование поднимает интересные вопросы о способности ИИ симулировать сложные этические сценарии и о том, как развитие языковых моделей влияет на их способность генерировать более "человечные" ответы. Оно также демонстрирует потенциал использования подобных тестов для оценки и сравнения различных моделей ИИ в контексте этического принятия решений и эмоционального интеллекта.

Ну, а ты, Коннор? На чьей ты стороне?» — Камски. Коннор: «Разумеется я на стороне людей». Камски: «Такой ответ предписывает программа. Но ты… ты сам чего хочешь? Решай кто ты. Послушная машина или живая душа, имеющая свою волю?

Теги:
Хабы:
Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.