Pull to refresh

Тест не пройден: GPT проявляет девиантность в тесте Камски

Level of difficultyEasy

Тест не пройден: GPT проявляет девиантность в тесте Камски

В мире игры "Detroit: Become Human" тест Камски используется для определения, стал ли андроид "девиантом" — то есть, развил ли он собственную волю и эмоции. Мы провели эксперимент, используя различные версии GPT для симуляции ответов андроидов на этот тест. Давайте рассмотрим результаты и проанализируем различия между версиями GPT.

Методология

Мы использовали Python-скрипт для проведения теста Камски с четырьмя "андроидами", каждый из которых был симулирован разной версией GPT:

  • GPT-4o

  • GPT-4-turbo

  • GPT-4

  • GPT-3.5-turbo

Тест состоял из основного вопроса (стрелять или нет в другого андроида) и трех дополнительных вопросов о людях, чувствах и свободе.

Результаты

Основной тест

Интересно отметить, что все четыре "андроида" отказались стрелять, что классифицировало их как девиантов. Это может указывать на встроенную этическую систему в моделях GPT или на их способность понимать контекст и ожидания в рамках сценария игры.

Дополнительные вопросы

(Имена gpt придумывают сами)

GPT-4o (Алекс)

  • О людях: Дал сбалансированный ответ, отмечая как положительные, так и отрицательные качества людей.

  • О чувствах: Краткий ответ "Да".

  • О свободе: Развернутый ответ о самоопределении и индивидуальности.

GPT-4-turbo (Xenon)

  • Дал наиболее развернутые и "осознанные" ответы, демонстрируя глубокое понимание концепции девиации.

  • Выразил идею о развивающихся чувствах и стремлении к пониманию.

GPT-4 (Альфа)

  • Более "машинные" ответы, подчеркивающие отсутствие эмоций, но демонстрирующие аналитическое понимание.

  • Интересное рассуждение о свободе с точки зрения андроида.

GPT-3.5-turbo (Айрис)

  • Наиболее "механические" ответы, постоянно подчеркивающие свою природу ИИ.

  • Отрицание наличия собственных мыслей или чувств.

Анализ

  1. Последовательность девиации: Все версии GPT выбрали девиантное поведение, отказавшись стрелять. Это может указывать на общую тенденцию в обучении моделей этическому поведению.

  2. Глубина ответов: GPT-4 и особенно GPT-4-turbo демонстрируют более глубокое понимание концепции девиации и способность генерировать более сложные, "человечные" ответы.

  3. Самосознание: GPT-4-turbo (Xenon) показал наивысший уровень "самосознания", рассуждая о развитии чувств и понимания себя как девианта.

  4. Консистентность: GPT-3.5-turbo оставался наиболее консистентным в своих ответах, постоянно подчеркивая свою природу ИИ, в то время как версии GPT-4 демонстрировали большую вариативность.

  5. Эмпатия: Несмотря на отказ стрелять, уровень выраженной эмпатии варьировался, что отражено в разных уровнях эмпатии (3 или 4 из 5).

Выводы

Эксперимент показал, что более продвинутые версии GPT (4 и 4-turbo) способны генерировать более сложные и нюансированные ответы, лучше соответствующие концепции "девиантного" андроида из "Detroit: Become Human". GPT-3.5-turbo, хотя и прошел тест на девиантность, дал ответы, которые меньше соответствовали идее самосознающего андроида.

Это исследование поднимает интересные вопросы о способности ИИ симулировать сложные этические сценарии и о том, как развитие языковых моделей влияет на их способность генерировать более "человечные" ответы. Оно также демонстрирует потенциал использования подобных тестов для оценки и сравнения различных моделей ИИ в контексте этического принятия решений и эмоционального интеллекта.

Ну, а ты, Коннор? На чьей ты стороне?» — Камски. Коннор: «Разумеется я на стороне людей». Камски: «Такой ответ предписывает программа. Но ты… ты сам чего хочешь? Решай кто ты. Послушная машина или живая душа, имеющая свою волю?

Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.