denis-19 16 сен 2024 в 07:18

Нейросеть OpenAI o1 прошла авторитетный норвежский IQ-тест Mensa на 120 баллов

1 мин

11K

Машинное обучение*Учебный процесс в ITОблачные сервисы*Искусственный интеллектБудущее здесь

Комментарии 35

DomNi 16 сен 2024 в 07:42

Остается вопрос №1 ))) Как ChatGPT o1 прошел тест с картинками без возможности подгружать в него те самые картинки? :)

fedorro 16 сен 2024 в 07:48

Возможно в него загружали текстовые описания картинок. Ну а само описание могло быть получено другой нейросетью, с такой возможностью)

funca 16 сен 2024 в 08:39

А что у них случилось с подгрузкой картинок? Уже давно можно погружать картинки на платных тарифах.

alexalok 16 сен 2024 в 09:14

В о1 нельзя.

GennPen 16 сен 2024 в 08:41

В источнике вроде не говорится, что проходил тест который указан в статье. А вариаций тестов Mensa есть великое множество, в том числе и текстовые.

vojaganto 19 сен 2024 в 01:51

Тихо! Людям раунд поднять надо, а не на неудобные вопросы отвечать

alexhott 16 сен 2024 в 08:31

Как я понимаю смысл моделей которые называются "ИИ" как раз в том что с любыми тестами (вебери вариант ответа на вопрос) то они превосходно справляются.
Скоро в гарварды и оксфорды начнут поступать массово - если там тесты на вступительном заочные.

PsihXMak 16 сен 2024 в 08:59

то они превосходно справляются

*Если эти вопросы и ответы были в обучающей выборке.

Как показывает практика, с новыми заданиями у ИИ возникают трудности.

akakoychenko 16 сен 2024 в 09:13

С одной стороны да. С другой, виден же колоссальный разрыв с однопроходными моделями по левую сторону от горба. У них тоже была плюс-минус такая же выборка. По логике, все, что можно было из выборки вспомнить, они и отработали, а вот эти +30 баллов уже результат рассуждений

GennPen 16 сен 2024 в 09:23

Результаты можно считать не легитимными пока тесты статичны, не генерируются автоматически и в интернете есть практически полные разборы.

akakoychenko 16 сен 2024 в 10:06

Скорее тогда достаточно просто тестов, которые были созданы после окончания формирования тестовой выборки. Генерация тестов IQ штука со слишком большим количеством нюансов. Есть ли в обучающей выборке тесты на ту же идею? Есть ли тесты, к которым можно свести сгенерированную задачу, и так далее. Как правило, генераторы все равно берут за основу что-то, находящееся в интернете

Pshir 17 сен 2024 в 11:32

Во всех этих IQ тестах идей примерно 2-3 штуки. Там обучать буквально нечему. Просто профильный ЕГЭ по математике уже сложнее. Нейросеть там нужна только для распознавания геометрических фигур на картинке. Дальше надо безо всякой нейросети проверить на наличие одного из примерно 3-4 паттернов (и их комбинации) и выдать результат. Я вижу ровно одну причину, почему современные программы не выдают результаты 180-200 в таких тестах: потому что никому не интересно писать их.

BlackMokona 16 сен 2024 в 10:54

Так давно они уже не вступительные успешно сдают, а выпускные.

degistration 16 сен 2024 в 16:11

да их и не учившиеся сдают - нужно только внести оплату за весь пропущеный период обучения

SemenOk2 16 сен 2024 в 09:24

На моих задачах o1 сильно хуже, прямо разочаровывающе хуже, непонятно откуда восторги в статьях.

GennPen 16 сен 2024 в 09:37

Уже давно не секрет, что все эти нейросетевые алгоритмы хороши на стандартных задачах, которым их обучили. А вот если задать им нестандартную задачу, тогда начинаются свистопляски.

А по поводу теста Mensa, он только тестирует логическое и пространственное мышление, с чем у нейросеток вроде как более-менее неплохо. А если еще их подтренируют специально под это дело, то могут читерить: "Вот, смотрите, наша нейросетка проходит тест на 140+ IQ".

Proscrito 16 сен 2024 в 22:59

А люди, стало быть, массово приспособлены решать нестандартные задачи, ни разу до них не решенные?

У тестов айкью есть проблемы с областью применимости. Сравнить айкью бушмена и профессора Гарварда не получится. Бушмен и близко не такой "тупой" как покажет тест, а профессор скорее всего обломается решить простейшую интеллектуальную задачу из мира бушмена. Люди тоже хороши в решении типовых задач, потому что системы решений, основанные на обучении (интеллект) так работают. В принципе. Нестандартные же задачи обычно требуют большого количества итераций проб и ошибок, то есть дообучения сети альтернативным методом. У ии здесь слабость, у них требуют выдать ответ на запрос в одну итерацию. Никакой интеллект не работает так. Отсюда и попытки создать "рассуждающий" ии. Следующий шаг: ии, проверяющий свои ответы и повторяющий цепь рассуждений до удовлетворительного результата.

Pshir 17 сен 2024 в 11:38

Тест IQ тестирует натренированность на решение определённого очень узкого круга типовых задач. Мышление по такому тесту можно проверить только в одном случае: если человек никогда подобные задачки не решал. Если решал, то этот тест показывает температуру на Марсе. Ну и людей, которые никогда ничего подобного не решали, в нынешнем мире тоже можно найти только там.

alexandershelupinin 16 сен 2024 в 09:50

ну не знаю, специально у себя проверил на O1, нормально ответила. (могу скриншот прислать)

sickfar 16 сен 2024 в 19:08

Подождите-подождите. Это не хуже, это сильно лучше! Да, 27 часов думала. Но в итоге она признала, что не знает ответ. GPT4 так не умеет и начинает галлюцинировать. Тут где-то была статья про то, где четверку ловили на вопросе «какого цвета был брючный костюм у героини», хотя она была в юбке. И вместо ответа «у нее не было брючного костюма» или «я не знаю», модель сыпала разным упорином. Так что это, я считаю, сильный прорыв.

HotBoom 16 сен 2024 в 22:48

Copilot справился

TraurigerNarr 16 сен 2024 в 13:09

И это я последние пару вопросов тыкнула наугад, завершила на 36 или 37 за пять минут до конца теста, потому что надоело. Я не гений уж явно, так что какое-то сомнительное достижение у нейросетки

GennPen 16 сен 2024 в 13:26

До последних нескольких вопросов все довольно просто, потом вопросы резко показались душными, лень было искать зависимости и протыкал как показалось самыми подходящими.

Скрытый текст

commanderkid 16 сен 2024 в 21:15

Там вся фишка, в том, что у "среднего человека" по планете iq-100, грубо говоря у нашего вида iq = 100 - остальное, отклонения. У Вас выдающийся результат, надо сказать.

edge790 17 сен 2024 в 11:04

IQ не отражает уровень интеллекта.

Мне кажется удивительным насколько много людей верят в IQ, с учётом того что верить в него будут скорее те кто считают что он у них "выше среднего", но в то же время считают что по таким тестам с картинками можно исчерпывающе сказать что-то об интеллекте человека.

IQ тесты это один из самых больших скамов в мире, и то что OpenAI решили в нем посодействовать - ещё одно подтверждение того, что OpenAI любят "приукрасить" свои достижения

Anti-antivakser 17 сен 2024 в 18:11

А у вас так вообще результат выше отличного, 131 набирает меньшая часть всего человечества. У меня к примеру чуть больше 100 и я далеко не тупой.

GennPen 17 сен 2024 в 18:26

У меня проблема в том, что такие результаты только по подобным логическим задачам. В школе по математике, геометрии, физике и подобным были пятерки, а по русскому, литературе, истории и прочим - сплошные трояки.

Anti-antivakser 17 сен 2024 в 18:09

У вас отличный результат, я к примеру тупым не являюсь и набираю чтото около 100 баллов. Так что 121 это отлично.

Proscrito 16 сен 2024 в 22:35

Из всех новостей про о1 больше всего впечатлила та, где о1 первая написала пользователю. Без запроса, сама. Все еще надеюсь, что это фейк.

copenhagen72 17 сен 2024 в 14:03

Обсмотрются своих терминаторов, потом впечатляются

Steelycrack 16 сен 2024 в 23:11

так Mensa это же воплощение баяна с отправкой платного смс "я не лох", там простенький тест, в котором любой школьник набирает 140+ баллов и дальше предлагают заплатить за экзамен чтобы вступить в этот элитный клуб сверхразумов)

Anti-antivakser 17 сен 2024 в 18:14

Если вы набираете в нем 140 баллов вы просто очень интеллектуальный человек и думаете что это у всех так) я уже в третий раз пишу что в реальном мире я объективно не тупой но этот тест беру чуть больше 100 баллов, к концу теста у меня теряется фокус и я сдаюсь и еще на меня сильно время ограниченное давит.

Pshir 17 сен 2024 в 23:46

Не интеллектуальный, а натренированный на решение таких заданий. Это разные вещи.

Steelycrack 18 сен 2024 в 11:20

во всех остальных тестах набираю 115-130, но только mensa выдает 140+

ViskasSP1vom 17 сен 2024 в 00:07

Эта модель еще и код для докторской диссертации написала за час

https://habr.com/ru/news/843718/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий