Comments 13
Эти AGI тесты не измеряют ничего того, благодаря чему человек сделал ИИ. Я видел эти тесты - там просто набор абстрактных задач на обобщение и странные выводы. И все тесты не имеют одного верного решения, но оцениваются именно с позиции что решение есть и оно одно…
Новая модель Anthropic набрала 68,8% на бенчмарке ARC-AGI-2 — тесте абстрактного мышления, где год назад все ИИ-модели показывали ноль, а средний результат панели из 400 живых людей составляет 60%.
Пусть и самых умных 400 человек, но ЯМ обучаются на совокупном опыте почти всего человечества, миллиардов людей, включая почивших, внесших посильный вклад в культуру и хранящийся в виде контента в сети. Несправедливо, неравноценно, огромная фора ЯМ. Более корректным является такое сравнение. Если найдется хотя бы один человек, исключая разработчиков теста, который решит хотя бы одну задачу из теста правильно, то тест по ней считается пройденным. Как это организовать? В приватной сети, в которой регистрируются все желающие, а не только 400 избранных, и решают эти задачи. Главное, чтобы их решения не попали в общий доступ, чтобы их нельзя было использовать для обучения. Это будет более объективным сравнением, а не тем куцым, в пользу ЯМ, что есть. И второе, не секрет, что обучение ЯМ затачивается на специфику (методологию) известных тестов, решения которых уже имеются в сети, пусть и предыдущих версий. Этакая разновидность читерства, которая также дает им некоторую фору. Хотя люди также могут воспользоваться при решении дополнительной информацией из сети. Это вопрос корректной организации проведения сравнений.
Конечно даже такие неравноценные сравнения являются некоторыми показателями прогресса ЯМ, но не стоит к ним относиться с экзальтацией.
В таком случае человеческий тест покажет 100%. Разумеется найдутся на планете люди, которые решат эти тесты. Но что от этого толку? Мы же хотим дальше решать какие-то ежедневные практические задачи и не можем каждый раз искать лучших людей на планете, чтобы они решили их за нас. А вот поручить LLM можем легко и быстро и они решат лучше, чем средний человек.
То о чем вы говорите лучше тогда организовать как бенчмарк по конкретным направлениям. Например решение олимпиадных задач по физике, и сравнить с тем как эти задачи решают phd по физике и LLM, кто лучше.
В таком случае человеческий тест покажет 100%.
Вовсе нет. Есть множества задач типа Эрдэша, которые ждут своего решателя)
А вот поручить LLM можем легко и быстро и они решат лучше, чем средний человек
Естественно. Только не надо результаты этих тестов выставлять, как они уже догнали и уже перегоняют возможности человека. Это результат огромной форы которая дается ЯМ в этих соревнованиях.
Все эти тесты что-то показывают, прирост есть, никто не будет оспаривать. Но главный тест, когда они догонят человека, и возможно перегонят решение задач в науках, решения которых никому не известно) Их список по физике, хотя бы теоретические.
А причём тут фора? Да, тренировавшийся с детства борец или конькобежец в своём виде спорта уделает меня при любых раскладах, и что, я при сравнении буду говорить о какой-то форе? Нет, я точно хуже этого борца в борьбе и этого конькобежца на коньках.
Не просто натренированный борец против вас, а целая шобла борцов, каратистов, конг-фуистов, нинзей, спецназевцев, и тп, и просто шпаны) Пусть вы даже тренированный боец вероятность проиграть в соревновании с ней очень велика. Чтобы сравнять шансы пригласите свою шоблу. Как-то так, если перейти на эту силовую аналогию.
Да это тоже условности, компьютер обыграл сильнейшего шахматиста в 1995, но это не значит, что ИИ в плане мышления превзошел человека. Где-то в каких-то областях будет сильнее человечества, и будут прорывы со стороны ИИ, но где-то даже один средний человек будет лучше. Поэтому такой тест - померить в среднем по больнице - он тоже полезен, показывает уровень ИИ в сравнении с обычным человеком.
Пока преимущество в задачах которые имеют огромное пространство решений, как в упомянутых шахматах, и той же успешно решаемой задаче фолдинга биомолекул. В программировании преимущество в скорости написания кода. Короче, преимущества в основном в областях в которых когнитивные возможности человека по памяти, пропускной способности каналов передачи информации, быстродействию, и тп, уступают возможностям ЯМ. Можно сказать, что это продвинутый суперкомп с нейроподобным ПО, но по прежнему с фоннеймановской архитектурой железа. В этом его ограничения в сравнении организацией нейронной архитектуры мозга человека, которая позволяет делать типы обобщений пока не доступных ЯМ. Возможно со временем произойдет переход на нейроморфные архитектуры, которые позволяют делать асинхронные вычисления в памяти, и заодно решится проблема энергоэффективности ИИ. Соответственно появления полноценного автономного ИИ в тех же роботах, и других агентах.
Ну да, и без тестов мы увидим когда ИИ начнет думать лучше чем самые лучшие люди - это тут же будет в новостях, пока до этого далеко. Но перед этим обычные люди массового будут вытесняться ИИ с давно занятых ниш, в этом же трагедия.
Скорее всего ИИ встроится в общественно-экономический процесс, как это не раз было с новыми технологиями, включая интеллектуальными. Когда массово появились калькуляторы, затем их сменили персоналки, затем пришел интернет, мобильные технологии, 3d печать. Каждый раз пророчили массовый исход, но все как-то уживалось. Какие-нибудь налоги на роботов, ИИ-агентов, и тп, которые позволят плавно утрясти структурные изменения. Все же живем не во времена промышленной революции в Британии с их лудитами)
Claude Opus 4.6 обошел человека в «тесте на AGI». Но это только начало