runaway_llm25 мар в 17:55

Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%

2 мин

17K

Искусственный интеллектМашинное обучение *

+30

Комментарии 50

Sanitir 25 мар в 18:01

добавил новость в закладки )))))))

Yarus23 25 мар в 18:04

Кожаные пока лидируют

gotch 25 мар в 18:26

Жаль, что их удел - играть в придуманные игры.

Что делает человека человеком? Умение найти на 5 картинках мотоциклы.

Gagydzer 25 мар в 23:40

Их удел это - посмотреть ответ ллм, увидеть в нем баг, объяснить модели из-за чего этот баг, попросить пофиксить, смотреть как она впала в затуп на 10 минут, увидеть что в фиксе этот баг воспроизвелся снова, в другом виде но в том же месте. Наконец убедиться, что кожаным мешкам ничего не угрожает, ведь эти ллм не способны строить полную картину мира (пусть даже этим миром будет ивент-луп node.js) и как следствие не способны принимать адекватные решения и видеть последствия этих решений.

dumbaq 26 мар в 05:52

Золотые слова, но теперь нейросектанты назовут вас луддитом

NickN12 26 мар в 15:50

Посмотрите на этот мир. Вы уверены что люди "способны принимать адекватные решения и видеть последствия этих решений" ?

bolk 25 мар в 18:12

Что такое «харнесс»?

runaway_llm 25 мар в 18:19

Программная обвязка вокруг модели. Любой дополнительный код, который помогает ей видеть игровое поле, нажимать на клавиши, держать во внешней памяти наблюдения, гипотезы и результаты.

bolk 25 мар в 18:33

То есть, можно было обойтись нормальным русским словом «обвязка»?

ALBALAB 26 мар в 06:46

Можно, но это смотря какой fabric, смотря сколько details.

u_u 25 мар в 18:34

а у человеков тоже отняли гляделки и щупалки?

BlackMokona 25 мар в 18:50

Нет конечно и информации о тесте они получают на пару порядков больше как минимум

thorent 25 мар в 18:16

Особенно жалко Grok-4.20 - он и одной доли процента не набрал, бедняга.

ihouser 25 мар в 20:59

Grok это Чак Норис среди ИИ - набрал 1000%. Единица не влезла в индикатор.

Dr_Faksov 26 мар в 09:53

Grok это Чак Норис среди ИИ

Чак Норрис умер 20 марта 2026 года

Вы что-то знаете? Готовится? :)

ihouser 26 мар в 14:02

Легенды не умирают.

Jerichon 25 мар в 18:17

А как же технологическая сингулярность и пакт об ограничении ии

arielf 25 мар в 20:55

Это всё чьи-то влажные мечты.

dumbaq 26 мар в 05:55

Влажные мечты вряд ли, скорее влажная лапша.

Kot_na_klaviature 25 мар в 18:20

Этот говнокодерский GPT меня сегодня задолбал своей тупостью. Когда там уже нормальные модели подвезут, чтобы хоть нормально можно было работать..

LazyGatto 25 мар в 18:49

«Может вы просто не умеете его готовить?»

Kot_na_klaviature 25 мар в 19:53

Mcp правила все настроено. Там проблема не в контексте, который он постоянно игнорит, а в логике действий модели и "мышлении". Как тут в соседней ветке правильно назвали "аутист с фотографической памятью". Не раздражать может только говнокодеров.

murenysh 26 мар в 04:51

Он любит ситуативные выводы в память складывать, выдавая за общие случаи. Отправьте агента проверить память и правила на противоречивые или устаревшие инструкции. Переведите правила на английский для экономии токенов.

sse 25 мар в 19:53

Именно на этом зыбком предположении и держится сейчас мировая триллионная капитализация сотен компаний

mckeenly15 25 мар в 18:59

А как же утверждение одного кожаного, что AGI уже достигнут?

iBear 25 мар в 20:08

А можно восстановить ссылку на оригинальное исследование? А то там 404.

Baofu91 25 мар в 20:28

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

arielf 25 мар в 20:59

Вот и произошло то, про что многие учёные говорили. Генеративный ИИ не имеет никакого отношения к разуму. Как только появились нормальные тесты, показывающие не перетасовку обучающей выборки а креативное мышление, всё стало ясно.

Kot_na_klaviature 26 мар в 02:44

Креатив там на уровне плинтуса. Можно попросить написать стих в заданном сюжете и все сразу станет видно..

ctenomorpha 26 мар в 05:22

Если меня попросить написать стих в заданном сюжете, то результат будет аналогичным. Так себе тест на креатив.

dumbaq 26 мар в 05:55

Скорее всего вы себя сильно недооцениваете. Но даже если так, то на вас хотя бы не потратили миллиарды долларов инвестиций, квадратные километры инфраструктуры и тонны сжигаемого топлива.

Kot_na_klaviature 26 мар в 08:43

Может быть надо сравнивать не с тобой, а например.. с Пушкиным, не? Но даже если креатив у тебя вообще отсутствует вряд-ли ты начнешь писать галлюционированный тупой бред без рифмы, как это делает ллм.

Arlekcangp 27 мар в 12:54

Но самое интересное, что ещё не так давно такие комментарии могли получить минусов (сам получал, т к с самого начала говорил, что это не интеллект. Там в принципе нет процесса мышления, если не считать его жалкую имитацию в виде chain of thought) А теперь даже плюс два... Процесс понимания идёт однако.

Shoman 27 мар в 17:23

То что там нет процесса мышления - очевидно. Вопрос то в другом. А нужно ли мышление для решения большинства задач…

arielf 4 апр в 01:20

Всё же нужно. Высокоуровневая картина мира, понимание цели, абстрактное мышление, эмоции. Это ключевые компоненты любого творческого процесса. Ну а для нетворческого есть алгоритмы.

Вообще все эти попытки программистов создать AGI на базе LLM выглядят очень глупо и наивно. Особенно с позиции биологии и психофизиологии. Это как попытки улететь в Космос на винтовом самолёте.

Shoman 4 апр в 02:56

Так а где речь про творческий процесс, речь про решение задач, с появлением llm автоматизация стала расти, и их развитием проент решаемых задач продолжает увеличиваться.

>>Ну а для нетворческого есть алгоритмы.

так в том и дело что «ии» умеет делать многие задачи которые до этого классическими алгоритмами делать не могли.

palyaros02 1 апр в 03:22

Нормальные тесты? Вы в первоисточник сходили, тест посмотрели? У меня язык не поворачивается назвать этот тест нормальным, и очень интересно было бы посмотреть на результаты людей, если бы им давали то же, что и на вход моделям.

Человек видит цветную картинку, несколько подписанных кнопочек, кнопку HELP, где написано, что 1) это игра, 2) тут можно ходить, 3) можно пробовать и ошибаться, 4) задача - самому выяснить правила и развлекаться. Обратная связь мгновенная, вы сразу видите результат своего действия. Всё предельно понятно и сделано для человека. Игра не сложная, весь интеллект задействуется на игру.

ИИ же “видит” следующее: Никаких картинок. Строка из 4096 чисел без пояснений. То, что это матрица чисел, и что числа кодируют цвета еще надо догадаться. Набор действий ACTION1, ACTION2 и т.д. Опять же, без подписей и пояснений, что эти ACTION делают. Они просто есть, и надо ими завершить свой ответ. Результат модель увидит в следующем вызове. Еще одну строку на 4096 чисел, где надо найти отличия и сделать вывод. Вместо хелпа только “Вы играете в игру. Надо выиграть”. Ни метрики успеха (для человека это зеленый экран с красивой анимацией, и человеку очевидно что это победа), ничего.

Более того, метрика просто нечестная. Человек просто смотря на поле без всяких действий уже может понять, точнее ему прямо сказали, что тут можно ходить, что есть что-то на пробел, что тут разные объекты присутствуют и т.д. Модели это надо выяснить, и потратить на это действия и токены. А каждое действие, не двигающее к победе это штраф. Квадратичный.

Не кажется ли вам, что, ну, условия немного неравные у испытуемых? Почему бы в мультимодальные модели хотя бы скриншот не послать? Мне кажется, этот бенчмарк принципиально нерешаем моделями, а если какая-то его и решит, то это уже точно будет сверх-интеллект

arielf 2 апр в 01:45

Вы говорите, что человек видит цветные схемы, а чат-боты видят лишь матрицы с цифрами. Но это же и есть принципиальное отличие разума (не важно, человеческого или машинного) от статистических генераторов, коими и являются все нынешние чат-боты.

donttellthemmyname 25 мар в 22:02

Для тех, кто хочет проверить и свой интеллект: ARC-AGI-3 Public Demo

donttellthemmyname 26 мар в 00:33

Для тех, кто хочет пообучать агентов стратегиям прохождений: https://arc-agi-swarm.vercel.app/

Sanitir 26 мар в 06:52

если бы я был GPT я бы тоже притворился, что не могу пройти такую туфту, чтобы кожмешки прониклись чувством ложного величия

AuroraBorealis 26 мар в 13:03

Я не прошел. Не нашел на экране кнопку "Start"

Shurik911 26 мар в 06:43

Нейросети проходили без дополнительных инструментов, а человеку повязку на глаза не надевали ?

freeExec 26 мар в 12:02

А последний уровень вообще с туманаом войны, как ии без памяти должна сработать.

t1nker 26 мар в 21:46

У вас ссылка на статью не работает
Вот она как я понимаю https://arxiv.org/abs/2601.10904

rubyrabbit 27 мар в 05:21

Кажется, тут путаница между языковой моделью и агентом. Агент может быть очень разной архитектуры, обладать памятью и инструментами. Тут речь про ваншот и память только в рассуждениях?

gigoroma 27 мар в 08:32

В одних тестах люди тупее, в других ии, это вообще не говорит о том что сейчас ии хуже человека?

chrm 27 мар в 12:26

Значит ли это, что те люди, кто не проходят эти тесты, не обладают общим интеллектом? А я уверен что таких не мало.

arielf 2 апр в 01:47

Некоторые школьники (и взрослые) не могут пройти выпускные экзамены, в целом ну очень несложные. Значит ли это, что они не обладают общим интеллектом?

dr_coungrations 27 мар в 17:26

Ссылка на статью на Arxiv кривая

Зарегистрируйтесь на Хабре, чтобы оставить комментарий