Превью-версия Gemini 3 Pro набрала 130 баллов в оффлайн-бенчмарке Mensa, который является специальной версией знаменитого теста на IQ, адаптированного для оценки ИИ. В основу положен классический тест Mensa Norway, однако задачи написаны заново и не раскрываются, чтобы не допустить дообучения новых моделей специально под эти вопросы. Моделям с компьютерным зрением тест показывают в виде картинок, всем остальным — поясняют текстом смысл задачи. Вот сводная таблица, в которой даны результаты моделей в оффлайн-бенчмарке и Mensa Norway:

Gemini 3 Pro удалось оторваться на 4 балла от предыдущего лидера — причем речь о Grok 4 Heavy из 300-долларовой подписки, в котором над задачей работают сразу несколько версий модели, а из их вариантов ответа затем выбирается лучше. Далее идут Claude Opus 4.1, GPT-5 Thinking и GPT-5 Pro. Отрыв от предыдущей модели Google — Gemini 2.5 Pro — составляет и вовсе 20 баллов.

Интересно, что в классическом Mensa Norway все лидирующие модели показывают более высокие результаты - это значит, что как минимум часть задач из теста попали в их обучающие корпуса. Средний человеческий уровнь IQ равен 100 баллам, а результат Gemini 3 Pro оказывается среди 2% лучших людей по оффлайн-тесту и 0,3% — по Mensa Norway.

Автор оффлайн-бенчмарка Максим Лотт подчеркивает, что его графики не означают «победу машин над людьми». Он измеряет очень узкий навык — умение разгадывать абстрактные матрицы по картинкам. В реальной жизни интеллект гораздо шире: от здравого смысла и интуиции до мотивации, опыта и ответственности, и здесь у людей пока нет конкурентов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.