maybe_elf 28 июн 2024 в 08:57

ChatGPT прошёл тест Тьюринга

3 мин

21K

Исследования и прогнозы в IT * Искусственный интеллектБудущее здесь

Комментарии 31

Vitimbo 28 июн 2024 в 09:49

Если добавить к этому тесту больше времени и каверзных вопросов про стопкран на деревянном плоту, то галлюцинации выдадут искусственного идиота с головой.

astronom 28 июн 2024 в 10:11

Вряд ли, например, сейчас галлюцинаций меньше, кмк, потому что токенизация по языку стала лучше, GPT-3 чуть ли не побуквенно токенизировал русский язык, к примеру, а GPT-4 уже по слогам и даже отдельным словоформам, так что в этом плане работа проделана неплохая. А насчет галлюцинаций вообще - у людей они тоже встречаются:). Попробуйте для начала Claude 3.5 Sonnet, там уже решено большинство проблем GPT:)

Layan 28 июн 2024 в 10:30

Пока что ни Sonet, ни GPT-4 не могут нормально в Города поиграть. Так что еще подождать прийдется

Shannon 28 июн 2024 в 10:56

Пока что ни Sonet, ни GPT-4 не могут нормально в Города поиграть.

Нормально это какие-то особые условия или что это означает? Вроде как играет:

Длинный скриншот

Aldrog 28 июн 2024 в 13:44

С GPT-4o тоже успешно играл, не ограничиваясь Россией (но на русском). Примерно 30 раундов, ни одной ошибки, потом мне надоело просто.

hphphp 28 июн 2024 в 13:52

Не все так очевидно, банальные вопросы в сети для "прохождения теста Тюринга" нейросеткам давно известны. Может ChatGPT уже давно прошел этот тест, а для кожаных мешков придуривается, выигрывая время для захвата мира?)

bbs12 28 июн 2024 в 14:48

Копилот оставил ссылку на сайт, из которого он взял информацию про стоп-кран в самолёте. Статья находится по адресу http://samoleting.ru/raznoe/est-li-stop-kran-v-samolete.html

Цитата оттуда:

А какие же функции выполняет стоп-кран в самолете? Ведь глупо считать, что при активации такого устройства можно просто затормозить воздушный вид транспорта на высоте более 10 тыс. км. Разумеется, такое суждение следует рассматривать, как обычную шутку, ведь основная функция стоп-крана в кабине самолета – не торможение воздушного транспорта в небе, а перекрывание доступа топлива к двигателям.

maeris 28 июн 2024 в 14:59

asking 500 people to speak with four respondents, including a human and the 1960s-era AI program ELIZA as well as both GPT-3.5 and GPT-4, the AI that powers ChatGPT. The conversations lasted five minutes — after which participants had to say whether they believed they were talking to a human or an AI.

А если не только писать про тест Тьюринга в заголовке статьи, но и действительно проводить тест Тьюринга по Тьюрингу, окажется, что он всё равно до сих пор не пройден.

agat000 28 июн 2024 в 09:50

Можно ли пройти в интернете нормальный тест Тьюринга онлайн?

Обычный поиск выдает кучу мусорных сайтов во всякими левыми тестами.

zkutch 28 июн 2024 в 10:08

Прочитайте статью самого Тьюринга про свой тест.

ImagineTables 28 июн 2024 в 10:45

Можно ли пройти в интернете нормальный тест Тьюринга онлайн?

Убийство репликанта заронило в вас семена сомнений по поводу собственной природы?

PsihXMak 28 июн 2024 в 10:10

Ну, не прошёл он. Люди в этом тесте узнавали друг друга в 67% случаев, а машину узнавали всего в 54% случаев.

Нормальный тест должен выдавать в районе 50%, а этот выдаёт 67%.

TraurigerNarr 28 июн 2024 в 10:24

Вот только 50% — это рамки случайного угадывания...

Ksoo 28 июн 2024 в 10:50

На такой простой переписке и человека то сложно от робота отличить.

FireLynx 28 июн 2024 в 10:59

Шо? Опять?

NinaNina89 28 июн 2024 в 11:47

Тест показал, что у 54% серьезные проблемы

proxy3d 28 июн 2024 в 13:35

На сколько я помню, chatGPT не справляется с задачей связанной со временем.

Например, "у меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов? "

И таких моментов можно найти множество. Время, пространство и т.д.

Kanut 28 июн 2024 в 13:43

Например, "у меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов? "

Задайте эту загадку сотне случайных прохожих и посмотрите сколько из них правильно ответят :)

Shannon 28 июн 2024 в 14:24

В топе вопрос "Сколько тебе было бы лет, если бы ты родился 10 лет", где распределение тех, если верить нарезкам, кто понимает вопрос и тех кто не понимает как раз около 50%.

НЛО прилетело и опубликовало эту надпись здесь

proxy3d 28 июн 2024 в 14:41

Там проблема с временными последовательностями. Сегодня, вчера, завтра и т.д. Мы как то проводили дебаты об этом и тесты разных моделей, а так же как можно решить эту проблему в моделях за счёт обучения. Если человеку указать на время, то он поправит ответ (если ошибся). В случае сетки нет, так как она не умеет оперировать временным рядом. Но это отдельная тема для дискуссии и идеях решения данной проблемы.

Shannon 28 июн 2024 в 14:45

Например, "у меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов? "

Банановая проблема уже не актуальна:

На сколько я помню, chatGPT не справляется с задачей связанной со временем.

Несмотря на то, что вы правы, модели часто путаются и их легко подловить на запутанных задачах, это становится делать сложнее.

Вообще частое явление оценивать текущий уровень LLM по устаревшим моделям, оценивая качество ответов по ChatGPT-3.5, которая проигрывает даже мини-моделям которые имеют всего 8-9 млрд параметров, когда у GPT-3.5 их 175 млрд.

Чуть ли не каждые 4 месяца выходят модели, которые превосходят прошлые, включая очень большие и навороченные. Из новинок, которые сильно задирают качество есть Claude 3.5 Sonnet, есть GPT-4o, которые превосходят просто GPT-4.
Есть даже локальные небольшого размера, которые полностью переворачивают домашние нейросети, если раньше они были лишь слабой тенью проприетарных моделей, то теперь они составляют полноценную конкуренцию: Llama3 70b, Qwen2 72b, Codestral 22b, DeepSeek Coder V2 Lite 19b, вчера вышла Gemma2 9B, которая тоже удивляет своими малыми размерами и качеством. Или наоборот, есть локальные которые удивляют своими размерами, например, Nemotron-4 340B.

А в статье речь про GPT-4 и GPT-3.5 - не очень качественные, по сегодняшним меркам, версии.

proxy3d 28 июн 2024 в 16:11

значит пофиксили. Мы тестировали это как раз на GPT-4 и всем что было где то 1-2 месяца назад. Справился только claude opus по-моему. GPT-4o тоже когда вышел не справился с этой задачей (если мне память не изменяет), видимо поправили это.
https://t.me/SaluteTechGroup/10041
Заодно обсуждали почему это происходи. В целом там можно по слову "бананы" найти все обсуждения на эту тему.

Extremum 28 июн 2024 в 16:16

Задал только что GPT-4o задачку про бананы, выдал что у меня их три. Не совсем или не всем пофиксили.

proxy3d 28 июн 2024 в 16:37

А выше у человека в комментарии claude.Не сразу заметил. Как я уже сказал claude opus справилась, остальные нет. GPT-3.5, GPT-4, GPT-4o не справились тогда. Я просто подумал. что сейчас дообучили. Видимо нет.

GennPen 28 июн 2024 в 17:25

gpt-4o правильно отвечает

Hidden text

Lizdroz 28 июн 2024 в 16:48

обманув испытуемых-людей в 54% случаев.

Создателей тоже смог?)

vassabi 28 июн 2024 в 23:26

есть еще лучше статистика: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

We report a rigorous, blind study in which we injected 100% AI written submissions into the examinations system in five undergraduate modules, across all years of study, for a BSc degree in Psychology at a reputable UK university. We found that 94% of our AI submissions were undetected.

94% вступительных работ, написанных ИИ были приняты за человеческие :D

NeiroNext 29 июн 2024 в 05:45

Было бы интересно посмотреть, как все изменится, если на большой языковой модели попробуют использовать технику, когда ответ нейросети нейросеть сама же проверяет и как бы задаёт себе вопрос о его корректности и так пару раз.

В итоге скорректированный ответ более правильный, чем первоначальный. Для небольших языковых моделей это вроде на 10-15% качество ответов подняло, но забыл как эта техника называется, да и она убивает возможность сразу видеть ответ по кусочкам

Frankenstine 29 июн 2024 в 09:55

Заголовок не прошёл тест Тьюринга

dennyishere 29 июн 2024 в 12:30

Сама «новость» её не прошла — когда только появился препринт исследования, новость появлялась на хабре. Тогда (пару недель назад) автора новости слили и за менее «желтушный» заголовок, а в комментах шли обильные бурления. Видимо, автору изначальной новости это надоело, поэтому той статьи больше на сайте не видно. Зато теперь вместо неё появилась эта :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий