Комментарии 35
Остается вопрос №1 ))) Как ChatGPT o1 прошел тест с картинками без возможности подгружать в него те самые картинки? :)
Возможно в него загружали текстовые описания картинок. Ну а само описание могло быть получено другой нейросетью, с такой возможностью)
А что у них случилось с подгрузкой картинок? Уже давно можно погружать картинки на платных тарифах.
В источнике вроде не говорится, что проходил тест который указан в статье. А вариаций тестов Mensa есть великое множество, в том числе и текстовые.
Тихо! Людям раунд поднять надо, а не на неудобные вопросы отвечать
Как я понимаю смысл моделей которые называются "ИИ" как раз в том что с любыми тестами (вебери вариант ответа на вопрос) то они превосходно справляются.
Скоро в гарварды и оксфорды начнут поступать массово - если там тесты на вступительном заочные.
то они превосходно справляются
*Если эти вопросы и ответы были в обучающей выборке.
Как показывает практика, с новыми заданиями у ИИ возникают трудности.
С одной стороны да. С другой, виден же колоссальный разрыв с однопроходными моделями по левую сторону от горба. У них тоже была плюс-минус такая же выборка. По логике, все, что можно было из выборки вспомнить, они и отработали, а вот эти +30 баллов уже результат рассуждений
Результаты можно считать не легитимными пока тесты статичны, не генерируются автоматически и в интернете есть практически полные разборы.
Скорее тогда достаточно просто тестов, которые были созданы после окончания формирования тестовой выборки. Генерация тестов IQ штука со слишком большим количеством нюансов. Есть ли в обучающей выборке тесты на ту же идею? Есть ли тесты, к которым можно свести сгенерированную задачу, и так далее. Как правило, генераторы все равно берут за основу что-то, находящееся в интернете
Во всех этих IQ тестах идей примерно 2-3 штуки. Там обучать буквально нечему. Просто профильный ЕГЭ по математике уже сложнее. Нейросеть там нужна только для распознавания геометрических фигур на картинке. Дальше надо безо всякой нейросети проверить на наличие одного из примерно 3-4 паттернов (и их комбинации) и выдать результат. Я вижу ровно одну причину, почему современные программы не выдают результаты 180-200 в таких тестах: потому что никому не интересно писать их.
Так давно они уже не вступительные успешно сдают, а выпускные.
На моих задачах o1 сильно хуже, прямо разочаровывающе хуже, непонятно откуда восторги в статьях.

Уже давно не секрет, что все эти нейросетевые алгоритмы хороши на стандартных задачах, которым их обучили. А вот если задать им нестандартную задачу, тогда начинаются свистопляски.
А по поводу теста Mensa, он только тестирует логическое и пространственное мышление, с чем у нейросеток вроде как более-менее неплохо. А если еще их подтренируют специально под это дело, то могут читерить: "Вот, смотрите, наша нейросетка проходит тест на 140+ IQ".
А люди, стало быть, массово приспособлены решать нестандартные задачи, ни разу до них не решенные?
У тестов айкью есть проблемы с областью применимости. Сравнить айкью бушмена и профессора Гарварда не получится. Бушмен и близко не такой "тупой" как покажет тест, а профессор скорее всего обломается решить простейшую интеллектуальную задачу из мира бушмена. Люди тоже хороши в решении типовых задач, потому что системы решений, основанные на обучении (интеллект) так работают. В принципе. Нестандартные же задачи обычно требуют большого количества итераций проб и ошибок, то есть дообучения сети альтернативным методом. У ии здесь слабость, у них требуют выдать ответ на запрос в одну итерацию. Никакой интеллект не работает так. Отсюда и попытки создать "рассуждающий" ии. Следующий шаг: ии, проверяющий свои ответы и повторяющий цепь рассуждений до удовлетворительного результата.
Тест IQ тестирует натренированность на решение определённого очень узкого круга типовых задач. Мышление по такому тесту можно проверить только в одном случае: если человек никогда подобные задачки не решал. Если решал, то этот тест показывает температуру на Марсе. Ну и людей, которые никогда ничего подобного не решали, в нынешнем мире тоже можно найти только там.
ну не знаю, специально у себя проверил на O1, нормально ответила. (могу скриншот прислать)
Подождите-подождите. Это не хуже, это сильно лучше! Да, 27 часов думала. Но в итоге она признала, что не знает ответ. GPT4 так не умеет и начинает галлюцинировать. Тут где-то была статья про то, где четверку ловили на вопросе «какого цвета был брючный костюм у героини», хотя она была в юбке. И вместо ответа «у нее не было брючного костюма» или «я не знаю», модель сыпала разным упорином. Так что это, я считаю, сильный прорыв.
Copilot справился
И это я последние пару вопросов тыкнула наугад, завершила на 36 или 37 за пять минут до конца теста, потому что надоело. Я не гений уж явно, так что какое-то сомнительное достижение у нейросетки

До последних нескольких вопросов все довольно просто, потом вопросы резко показались душными, лень было искать зависимости и протыкал как показалось самыми подходящими.
Скрытый текст

Там вся фишка, в том, что у "среднего человека" по планете iq-100, грубо говоря у нашего вида iq = 100 - остальное, отклонения. У Вас выдающийся результат, надо сказать.
IQ не отражает уровень интеллекта.
Мне кажется удивительным насколько много людей верят в IQ, с учётом того что верить в него будут скорее те кто считают что он у них "выше среднего", но в то же время считают что по таким тестам с картинками можно исчерпывающе сказать что-то об интеллекте человека.
IQ тесты это один из самых больших скамов в мире, и то что OpenAI решили в нем посодействовать - ещё одно подтверждение того, что OpenAI любят "приукрасить" свои достижения
А у вас так вообще результат выше отличного, 131 набирает меньшая часть всего человечества. У меня к примеру чуть больше 100 и я далеко не тупой.
У вас отличный результат, я к примеру тупым не являюсь и набираю чтото около 100 баллов. Так что 121 это отлично.
Из всех новостей про о1 больше всего впечатлила та, где о1 первая написала пользователю. Без запроса, сама. Все еще надеюсь, что это фейк.
так Mensa это же воплощение баяна с отправкой платного смс "я не лох", там простенький тест, в котором любой школьник набирает 140+ баллов и дальше предлагают заплатить за экзамен чтобы вступить в этот элитный клуб сверхразумов)
Если вы набираете в нем 140 баллов вы просто очень интеллектуальный человек и думаете что это у всех так) я уже в третий раз пишу что в реальном мире я объективно не тупой но этот тест беру чуть больше 100 баллов, к концу теста у меня теряется фокус и я сдаюсь и еще на меня сильно время ограниченное давит.
Эта модель еще и код для докторской диссертации написала за час
Нейросеть OpenAI o1 прошла авторитетный норвежский IQ-тест Mensa на 120 баллов