Как стать автором
Обновить

Исследование: программа 60-х годов ELIZA прошла тест Тьюринга успешнее, чем GPT-3.5

Время на прочтение2 мин
Количество просмотров22K

В конце октября на arXiv появилась статья «Проходит ли GPT-4 тест Тьюринга?». В ней двое учёных из Калифорнийского университета в Сан-Диего описали свои эксперименты с участием больших языковых моделей и людей. Выяснилось, что участвовавшие в исследовании люди правильно идентифицировали других людей только в 63% случаев, а компьютерная программа 1960-х годов ELIZA превзошла модель искусственного интеллекта, используемую в GPT-3.5.

Исследователи создали сайт turingtest.live, на котором разместили тест Тьюринга для двух респондентов. Люди, выступавшие в роли судей, взаимодействовали на этом сайте с другими людьми или моделями ИИ. В эксперименте приняли участие 652 человека, которые прошли в общей сложности 1 810 сессий, 1 405 из которых были потом проанализированы. GPT-4 успешно прошла тест в 41% случаев, уступив только людям с 63%. ELIZA, разработанная в середине 1960-х годов компьютерщиком Джозефом Вейценбаумом в Массачусетском технологическом институте, показала относительно высокие результаты, достигнув 27%, в то время как GPT-3.5 не превысила 14%.

Ars Technica отметила, что результаты GPT-3.5 можно объяснить тем, что эта базовая модель бесплатной версии ChatGPT была специально настроена так, чтобы она не выдавала себя за человека. Издание процитировало профессора информатики из Принстона Арвинда Нараянана, который прокомментировал публикацию коллег: «Как всегда, поведение при тестировании не говорит нам о возможностях… ChatGPT настроен так, чтобы иметь формальный тон, не выражать мнения и т. д., что делает его менее похожим на человека. Авторы пытались изменить это с помощью подсказок, но у них есть ограничения. Лучший способ выдать его за человека, общающегося в чате, — это настраивать его по логам человеческих чатов».

Исследователи обратили внимание, что участники экспериментов принимали решения, опираясь в первую очередь на языковой стиль и социально-эмоциональные черты, а не только на интеллект собеседников. Участники отмечали, когда ответы были слишком формальными или неформальными, когда ответам не хватало индивидуальности или они казались общими. При этом уровень образования участников и их знакомство с большими языковыми моделями не оказали существенного влияния на их успех в обнаружении ИИ.

Авторы исследования признали его недостатки, в том числе потенциальную необъективность выборки и отсутствие стимулов для участников, отчего некоторые люди не справились со своими ролями. Более того, среди испытуемых были люди, которые просто занимались «троллингом», выдавая себя за ИИ.

Учёные предположили, что достигнутые ими результаты (особенно это касается тестов ELIZA) могут подтвердить распространённую критику теста Тьюринга как неточного способа измерения искусственного интеллекта, но отказываться от него не стоит: «Тест сохраняет свою актуальность в качестве основы для измерения беглого социального взаимодействия и обмана, а также для понимания человеческих стратегий адаптации к этим устройствам».

Предыдущие эксперименты с тестом Тьюринга, проведённые AI21 Labs в мае, показали, что люди правильно идентифицировали других людей примерно в 73% случаев.

Теги:
Хабы:
Всего голосов 26: ↑26 и ↓0+26
Комментарии5

Другие новости

Истории

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань