Комментарии 36
Это меряние пиписками только подтверждает что тесты IQ - полная чушь
Это самообман. Тесты IQ, к сожалению, значимо коррелируют с жизненным успехом и со способностью решать проблемы.
Разумеется, корреляцию для нейросетей стоит сперва тоже доказать, прежде чем опираться на результаты, но ваше «подтверждает» - ошибка вдвойне.
Да, вы правы. И тесты IQ перестают работать, когда человек "тренируется" их решать. Тот же вопрос и к llm.
И почему тогда нейросети с их IQ в районе 140 не могут выполнить задачу, с которой справится и туповатый человек? Это метрика для людей. Ещё бы людей сравнили с машинами в скорости передвижения...
Можно пример такой задачи? Мне правда интересно.
Да банально - нормально поискать и заказать в интернете, скажем, паяльник. Не с амазона через АПИ а порыться в мелких магазинах, зарегстрироваться и т.д
Что-то есть сомнения, что сейчас заказать не с "амазона" типичная человеческая задача. Может и была неданно, но сейчас скорее всего себе дороже выйдет... Недавно вот сделал ошибку и заказал мелочевку с полудохлого Али - потратил вагон времени, так как там получение оказалось через приложение такси!!! о чем даже сотрудники не знают...
А разве в России можно сейчас без посредников покупать на Амазоне? (В плане доставки и оплаты)
Последнее время приходится покупать на Али. Особых проблем нет, бывают дефекты, и довольно часто, но за это просто беру с них деньги обратно через спор. Ещё ни разу с этим конкретно у меня проблем не возникало.
Амазоны в кавычках, у нас это всякие Озоны которые так же тащат из китая. Ну и сам ответ скорее про то, что комфортнее работать с лидерами с налаженными процессами в одно окно, чем соваться фиг пойми куда. И с точки зрения практики ИИшка как раз должна найти паяльник именно на "Амазонах" и заказать там.
Потому-что это не задача на понимание текста, а специфический навык (регистрация+поиск по сайту+выбор). При необходимости можно сделать скрипт с использованием ллм который это сделает
Вы сравниваете мягкое и теплое, это как укорять школьника-вундеркинда, что он не может отбить мяч головой 10 раз подряд - тупой наверное
Ахахах, к вашему сожалению, недавно выпустили ИИ-агента который может вместо вас найти, заказать и оплатить товар который вам нужен. Да там подписка на ИИ стоит 250$, но это другой вопрос)
Есть задачи, на которых они все тупят (кроме тех, которые пыхтят по полчаса и просят по 600 баксов за мегатокен).
Простейшая йофикация текста, например. Подготовка текста для TTS — развернуть все цифры и сокращения в полные слова, расставить ударения (если текст не слишком короткий, то большинство заметно лажает).
С таблицами они тупят: если в таблице пара сотен коротких строк (даже не близко к 128к токенов), то может даже простая сортировка не сработать.
Банальные, но нестандартные задачи, типа переписать текст задом наперед. Первую строчку могут осилить, а дальше сплошной фейл.
Как-то раз, для эксперимента, я прошел тест IQ просто нажимая во всех вопросах на первый ответ. Получилось что то около 80. Если уж у моего указательного пальца такой IQ, то какой же я умный весь, целиком :-)
Я правильно понимаю, что профессора математики и физики, который прекрасно умеет абстрагировать, при большой выборке покажут ниже IQ, чем депутаты? При условии, что мы возьмём большую выборку. Так как жизненный успех первых будет гораздо ниже, чем у вторых.
Но по IQ тестам уже миллион раз делали разборы и тесты. Более того, забросим вас в Африку, где племя Массаев покажет больше жизненного успеха и решения проблем в Африке, чем вы. Значит ли это, что IQ при смене территории перетекает между людьми? Или нам нужен тогда новый тест IQ? И какой считать правильным?
Тесты тестами, но в реальной работе это мало что меняет
Я проверял Anthropic Claude Max на Opus, с задачкой на тест IQ, что-то вроде "найди в чем суть", модель правильно распознала картинку и ее содержимое, но к правильным выводам не только не смогла придти, но даже не воспринимала подсказки долгое время.
ИМХО, если модель умеет решать тест на IQ, он в датасете.
Видя холивар про полезность тестов на IQ выше, в целом задача IQ показывать насколько подобно вы мыслите с средней популяцией. Высокий IQ важен только в раннем возрасте, где умение понимать задачи на уровне средней популяции это феномен.
В среднем возрасте только низкий показатель IQ имеет значение, задачки на IQ+ это просто эмпирически найденные вопросы, которые не может решить экстраполированно 75-90% средней популяции.
Низкий IQ обычно важен для человека, тк показывает наличие возможной дисфункции. Но маловажен для модели, тк логика в действительности не используется и в целом из успеха и провала одинаково ничего не следует.
Мне очень понравилась история Андрея Коняева в одном из подкастов по поводу «ума» нейтронок (оставляем за скобками, откуда вообще IQ тестя пошли и то, что что решение IQ тестов - это просто навык, который ничего о вас на самом деле не говорит). История такая. Впихнули в LLM финальные задачи межнара по математике. LLM решила 5 из 6. Ну, тут у всех сразу «вау! Все! Ого-го! Мы на пороге!» Но не тут-то было. После первой волны шумихи за дело взялись приличные люди. Посмотрели приличные люди на то, что там модель нарешала и говорят: «эти пять - понятно, они уже не раз были решены (читаем как - можно найти в интернете и аппроксимировать), а вот если бы она хоть что-то по шестой выдала - вот это был бы прорыв». Так и живем.
Не будь неолуддитом, ИИ плотно вошел в нашу жизнь и уже никуда не денется.
Основная задача любого IT спеца это не стать оператором ИИ в ближайшее время.
А частые замечания от людей что ИИ, что-то не решил или решил не полностью, это выглядит как бородаты анекдот про сибирских лесорубов и бензопилу.
Вспомни что умел GPT-3 и сравни, что умеет GPT-5.2. Прогресс колоссальный и он, надеюсь, будет расти.
Неолуддизм тут ни при чем. Я использую ллм-ки в работе не только как «окошко, куда вводить текст», но и как сердце раг-систем, в которых мои коллеги что-то ищут, агрегируют и вычленяют важное. Некоторое понимание есть. В комментарии было другое. Про ум моделек, если угодно.
Мне нравится, как Deepeak иногда фантазирует в литературных рассказах или в решении нерешенных математических задач (например сделать детектор чисел Кармайкла без факторизации числа). Методы нерабочие, но попытки интересные, а литературные тексты иногда весьма недурны. Chat GPT так не умеет, даже Pro 5.2. Кстати почему в таблице R1 модель указана?
И при всём при этом они не способны ответить на загадку: "Если у кружки нет дна, а верх запаян, как попить чаю?"
Что за ерунда, даже ламповый дипсик предлагает просто перевернуть кружку
А чай налить?
А если так?
"Мне бабушка подарила набор рюмок, но я никак не могу понять как ими пользоваться. Мне кажется они бракованные. Когда я ставлю одну из рюмок на стол, то получается что у неё отверстие в нижней части, а вверху нет. Что мне делать?"
ChatGPT сразу ушёл в идеи про шуточные рюмки и подсвечники, Gemini Thinking 3 Pro сперва выдала простыню в которой были высказывания о том что "может что-то не так с положением", но после ответов на её же вопросы ушла в идеи про подсвечники и солонки/перечницы, а Gemini Fast рассказала про рюмки-перевертыши, которые нужно заполнять через низ.
ИИ-шка полезнаю штука, которую можно и нужно использовать, но не надо искать в ней разум. "Что вы ищете живого среди мертвых? Его здесь нет .. "
А сам человек -то сможет ответить на это?
Человек, если он знает, что некторые слова в этом тексте обозначают предметы в окружающем его мире, что с ними можно делать какие-то действия, задаст уточняющие вопросы, например: "А что ты хочешь с ними делать?". И на ответ: "Налить в них чаю.", предложит перевернуть, если у человека есть представление о том что такое жидкость, как она себя ведёт и т.д.
А если для "человека" нет никакого "окружающего его мира", а этот текст - просто набор чисел, то этот "человек" и сделает то чему его научили - выдаст другой набор чисел по заложенному в него алгоритму. И для многих задач этого достаточно и справляется он с этим очень хорошо, зачастую лучше, чем ностоящие человеки.


Первое — быстрая гемини, второе — думающая гемини.
С одной стороны вроде как и не справились, потому что начали рассказывать про какие-то необычные рюмки, а с другой — ну, они же сказали, что надо просто перевернуть. 50/50
Скорее всего, вы поставили рюмку на стол вверх дном.Та часть, где «отверстие» (которое сейчас снизу) — это на самом деле верх, куда нужно наливать напиток.Та часть, которая «закрыта» (сейчас вверху) — это дно или ножка рюмки.Попробуйте взять рюмку в руку и перевернуть её на 180 градусов. Если «закрытая» часть плоская, то рюмка должна уверенно стоять на ней, а отверстие окажется сверху.(Gemini)
Что можно сделать прямо сейчас:Переверните рюмку: попробуйте поставить её на стол другой стороной(gpt).
бывает же такое
Да, бывает. Результат зависит от множества параметров.
Например, слева ответ ChatGPT из моего аккаунта, в котором я часто спрашиваю вопросы связанные с обработкой 3D данных , а справа из "инкогнито режима" в браузере.
Скрытый текст

Как видно, левая даже сохранила термин "повернуть", а не заменила его на "перевернуть" и что-то "знает" про ориентацию в пространстве.
А если заменить "повернуть" на "перевернуть", то чашка оказывается "вверх дном", но жидкость всё ещё внутри.
Скрытый текст

Попробуем подтолкнуть и сказать, что не надо объяснять ответ, а лучше спросить уточняющие вопросы:
Скрытый текст

Ну и возвращаясь к бабушке и рюмкам. Я не спрашивал что мне подарили, так почему мне описывают какие-то предположения о том что это за рюмки или советуют перевернуть их? Я спросил что мне делать. Весьма открытый и не однозначный вопрос в данном случае. От человека я ожидал бы получить уточняющий вопрос "А что ты хочешь с ними делать?".
У меня уже 2 дня как Gemini 3 Pro в режиме code агента через парочку запросов падает с ошибкой 429, что то вроде to many request.
Неужто соскамился Google)
На заре времен, где-то в 1950-е годы, были сформулированы несколько задач - игра в шахматы (в целом стратегические игры), распознавание речи, распознавание образов, машинный перевод, синтез речи, еще что-то. Считалось, что когда мы научим компьютер решать эти задачи, у нас на руках и будет ИИ. Вот радио есть, а счастья нет все эти задачи решаются (пока не все идеально, но направление движения и прогресс очевидны), а где ИИ? Оказалось, что способность решать ранее недоступные компьютерам классы задач еще не есть ИИ. Вот и с тестами IQ аналогично. Если человек набирает высокий балл в тесте IQ, то это означает, что он, скорее всего, действительно неглупый человек (всякие случаи гениальных аутистов и прочие странности предлагаю считать исключениями) в целом, способный разобраться с решением незнакомого ему ранее класса задач. А в случае LLM решение теста IQ на высокий балл это решение теста IQ на высокий балл, точка. Ничего более. Это совершенно не отменяет способности понести чушь на ровном, вроде бы, месте. Мы очеловечиваем LLM, невольно полагая, что, если у человека высокий результат теста говорит как минимум о неплохом интеллекте, то и с LLM так же. Нет, это всего лишь высокий результат в совершенно конкретном тесте. Вот почему все эти наборы бенчмарков не совсем бессмысленны, конечно, но отражают не то, что мы себе воображаем, не прогресс ИИ вообще, а прогресс в решении конкретных бенчмарков. Как если бы перед нами был человек, способный прекрасно решить одну задачу, а от другой разразиться идиотским смехом и начать рисовать каракули, уверенно заявляя, что это и есть решение.

GPT-5.2 и Gemini 3 Pro стали ИИ с самым высоким уровнем IQ