ChatGPT прошёл тест Тьюринга / Хабр

Учёные-когнитивисты из Калифорнийского университета в Сан-Диего заявили, что ChatGPT-4 успешно прошёл тест Тьюринга, обманув испытуемых-людей в 54% случаев.

Однако, по их мнению, такой результат может больше сказать о самом тесте, нежели об интеллекте современного ИИ. Математик Алан Тьюринг разработал свой тест ещё в 1950 году. Его участник-человек должен был общаться с компьютером через текстовый интерфейс. В случае, если ответы компьютера нельзя отличить от человеческих по широкому спектру возможных вопросов, то нужно признать, что он так же разумен, как и человек, рассуждал Тьюринг.

Исследователи попросили 500 участников поговорить с четырьмя разными агентами: тремя системами ИИ и одним человеком. В качестве ИИ выступили ChatGPT-4, ChatGPT-3.5 — две модели популярного чат-бота от OpenAI — и программа чата эпохи 1960-х годов под названием ELIZA.

Участников попросили убедить собеседника в том, что он человек, либо выяснить, с кем они разговаривают. Затем им дали пообщаться в течение пяти минут. После этого участников спросили, думают ли они, что разговаривают с компьютером, почему они так думают и насколько они уверены в своём мнении. В то время как устаревшая система ELIZA обманывала участников только 22% случаев, ChatGPT-3.5 смог сделать это ровно в половине бесед. Более продвинутая версия ChatGPT-4 показала себя ещё лучше. Для сравнения — участники правильно идентифицировали людей в беседах только в 67% случаев.

По словам исследователей, результаты «представляют собой первую надёжную эмпирическую демонстрацию того, что любая искусственная система проходит интерактивный тест Тьюринга для двух участников».

Пока это лишь предварительная версия статьи и она ожидает рецензирования, поэтому к результатам следует относиться с некоторой осторожностью. Однако, если они подтвердятся, это станет первым убедительным доказательством того, что ИИ прошёл тест Тьюринга.

Нелл Уотсон, исследователь искусственного интеллекта в IEEE, заявил: «Машины могут гадать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди. Это означает, что в системах искусственного интеллекта выражаются человеческие слабости и причуды, что делает их более похожими на людей, чем предыдущие системы».

Хотя может показаться странным включать программу 1960-х годов в испытание передовых технологий, эта модель была призвана проверить работу так называемого «эффекта ELIZA». Это идея о том, что люди могут очеловечивать даже очень простые системы.

Исследователи также отмечают, что изменение общественного восприятия ИИ могло повлиять на результаты теста Тьюринга: «На первый взгляд, низкий процент прохождения людьми может быть удивительным. Разве люди не должны проходить его в 100% случаев?». В 1950 году это предположение имело бы смысл, поскольку тогда отличить подобные системы от человека было проще. Однако теперь общественность становится все более осведомлённой об ИИ и его возможностях.

Исследователи также признают обоснованность критики теста Тьюринга. По их словам, «стилистические и социально-эмоциональные факторы играют большую роль в его прохождении, чем традиционные представления об интеллекте». Аналогичным образом, одной из наиболее успешных стратегий идентификации роботов был опрос о человеческом опыте, который срабатывал в 75% случаев. Это говорит о том, что тест Тьюринга на самом деле не доказывает разумность системы, а, скорее, измеряет её способность имитировать или обманывать людей.

По мнению исследователей, нынешний результат в лучшем случае обеспечивает «вероятностное» подтверждение того, что ChatGPT интеллектуален. Они отмечают, что убедительные системы ИИ могут «играть экономически ценные роли по работе с клиентами, вводить в заблуждение широкую общественность или своих собственных операторов-людей и подрывать социальное доверие к человеческим взаимодействиям».

Между тем исследователи из Редингского университета применили ChatGPT на базе GPT-4, чтобы сгенерировать ответы экзамена по психологии. Затем их отправили коллегам, которые смогли определить только одну из 33 тестовых работ как созданную ИИ. В некоторых случаях работы ИИ получили более высокие оценки, чем реальные студенты.