Pull to refresh

Comments 31

Если добавить к этому тесту больше времени и каверзных вопросов про стопкран на деревянном плоту, то галлюцинации выдадут искусственного идиота с головой.

Вряд ли, например, сейчас галлюцинаций меньше, кмк, потому что токенизация по языку стала лучше, GPT-3 чуть ли не побуквенно токенизировал русский язык, к примеру, а GPT-4 уже по слогам и даже отдельным словоформам, так что в этом плане работа проделана неплохая. А насчет галлюцинаций вообще - у людей они тоже встречаются:). Попробуйте для начала Claude 3.5 Sonnet, там уже решено большинство проблем GPT:)

Пока что ни Sonet, ни GPT-4 не могут нормально в Города поиграть. Так что еще подождать прийдется

Пока что ни Sonet, ни GPT-4 не могут нормально в Города поиграть.

Нормально это какие-то особые условия или что это означает? Вроде как играет:

Длинный скриншот

С GPT-4o тоже успешно играл, не ограничиваясь Россией (но на русском). Примерно 30 раундов, ни одной ошибки, потом мне надоело просто.

Не все так очевидно, банальные вопросы в сети для "прохождения теста Тюринга" нейросеткам давно известны. Может ChatGPT уже давно прошел этот тест, а для кожаных мешков придуривается, выигрывая время для захвата мира?)

Копилот оставил ссылку на сайт, из которого он взял информацию про стоп-кран в самолёте. Статья находится по адресу http://samoleting.ru/raznoe/est-li-stop-kran-v-samolete.html

Цитата оттуда:

А какие же функции выполняет стоп-кран в самолете? Ведь глупо считать, что при активации такого устройства можно просто затормозить воздушный вид транспорта на высоте более 10 тыс. км. Разумеется, такое суждение следует рассматривать, как обычную шутку, ведь основная функция стоп-крана в кабине самолета – не торможение воздушного транспорта в небе, а перекрывание доступа топлива к двигателям.

asking 500 people to speak with four respondents, including a human and the 1960s-era AI program ELIZA as well as both GPT-3.5 and GPT-4, the AI that powers ChatGPT. The conversations lasted five minutes — after which participants had to say whether they believed they were talking to a human or an AI.

А если не только писать про тест Тьюринга в заголовке статьи, но и действительно проводить тест Тьюринга по Тьюрингу, окажется, что он всё равно до сих пор не пройден.

Можно ли пройти в интернете нормальный тест Тьюринга онлайн?

Обычный поиск выдает кучу мусорных сайтов во всякими левыми тестами.

Прочитайте статью самого Тьюринга про свой тест.

Можно ли пройти в интернете нормальный тест Тьюринга онлайн?

Убийство репликанта заронило в вас семена сомнений по поводу собственной природы?

Ну, не прошёл он. Люди в этом тесте узнавали друг друга в 67% случаев, а машину узнавали всего в 54% случаев.

Нормальный тест должен выдавать в районе 50%, а этот выдаёт 67%.

Вот только 50% — это рамки случайного угадывания...

На такой простой переписке и человека то сложно от робота отличить.

Тест показал, что у 54% серьезные проблемы

На сколько я помню, chatGPT не справляется с задачей связанной со временем.

Например, "у меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов? "

И таких моментов можно найти множество. Время, пространство и т.д.

Например, "у меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов? "

Задайте эту загадку сотне случайных прохожих и посмотрите сколько из них правильно ответят :)

10 лет назад*

Там проблема с временными последовательностями. Сегодня, вчера, завтра и т.д. Мы как то проводили дебаты об этом и тесты разных моделей, а так же как можно решить эту проблему в моделях за счёт обучения. Если человеку указать на время, то он поправит ответ (если ошибся). В случае сетки нет, так как она не умеет оперировать временным рядом. Но это отдельная тема для дискуссии и идеях решения данной проблемы.

Например, "у меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов? "

Банановая проблема уже не актуальна:

На сколько я помню, chatGPT не справляется с задачей связанной со временем.

Несмотря на то, что вы правы, модели часто путаются и их легко подловить на запутанных задачах, это становится делать сложнее.

Вообще частое явление оценивать текущий уровень LLM по устаревшим моделям, оценивая качество ответов по ChatGPT-3.5, которая проигрывает даже мини-моделям которые имеют всего 8-9 млрд параметров, когда у GPT-3.5 их 175 млрд.

Чуть ли не каждые 4 месяца выходят модели, которые превосходят прошлые, включая очень большие и навороченные. Из новинок, которые сильно задирают качество есть Claude 3.5 Sonnet, есть GPT-4o, которые превосходят просто GPT-4.
Есть даже локальные небольшого размера, которые полностью переворачивают домашние нейросети, если раньше они были лишь слабой тенью проприетарных моделей, то теперь они составляют полноценную конкуренцию: Llama3 70b, Qwen2 72b, Codestral 22b, DeepSeek Coder V2 Lite 19b, вчера вышла Gemma2 9B, которая тоже удивляет своими малыми размерами и качеством. Или наоборот, есть локальные которые удивляют своими размерами, например, Nemotron-4 340B.

А в статье речь про GPT-4 и GPT-3.5 - не очень качественные, по сегодняшним меркам, версии.

значит пофиксили. Мы тестировали это как раз на GPT-4 и всем что было где то 1-2 месяца назад. Справился только claude opus по-моему. GPT-4o тоже когда вышел не справился с этой задачей (если мне память не изменяет), видимо поправили это.
https://t.me/SaluteTechGroup/10041
Заодно обсуждали почему это происходи. В целом там можно по слову "бананы" найти все обсуждения на эту тему.

Задал только что GPT-4o задачку про бананы, выдал что у меня их три. Не совсем или не всем пофиксили.

А выше у человека в комментарии claude.Не сразу заметил. Как я уже сказал claude opus справилась, остальные нет. GPT-3.5, GPT-4, GPT-4o не справились тогда. Я просто подумал. что сейчас дообучили. Видимо нет.

gpt-4o правильно отвечает

Hidden text

обманув испытуемых-людей в 54% случаев.

Создателей тоже смог?)

есть еще лучше статистика: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

We report a rigorous, blind study in which we injected 100% AI written submissions into the examinations system in five undergraduate modules, across all years of study, for a BSc degree in Psychology at a reputable UK university. We found that 94% of our AI submissions were undetected. 

94% вступительных работ, написанных ИИ были приняты за человеческие :D

Было бы интересно посмотреть, как все изменится, если на большой языковой модели попробуют использовать технику, когда ответ нейросети нейросеть сама же проверяет и как бы задаёт себе вопрос о его корректности и так пару раз.

В итоге скорректированный ответ более правильный, чем первоначальный. Для небольших языковых моделей это вроде на 10-15% качество ответов подняло, но забыл как эта техника называется, да и она убивает возможность сразу видеть ответ по кусочкам

Заголовок не прошёл тест Тьюринга

Сама «новость» её не прошла — когда только появился препринт исследования, новость появлялась на хабре. Тогда (пару недель назад) автора новости слили и за менее «желтушный» заголовок, а в комментах шли обильные бурления. Видимо, автору изначальной новости это надоело, поэтому той статьи больше на сайте не видно. Зато теперь вместо неё появилась эта :)

Sign up to leave a comment.

Other news