Предлагаю обсудить перевод оригинальной статьи с методикой интересного теста ARC Prize, - об него сломали виртуальные зубы все LLM, кроме нашумевшей o3 от OpenAI , которая на основании решения 75,7% некоторыми начинает уже считаться как "тот самый, сильный ИИ", "почти сильный ИИ", "посильнее почти всех человеков ИИ"... А еще организаторы раздают призы с призовым фондом $ 1 000 000. Сможет ли этот тест подвинуть знаменитый Тест Тьюринга?
Премия АРК 2024: Технический отчет
François Chollet, Mike Knoop, Gregory Kamradt, Bryan Landers
December 9, 2024
По состоянию на декабрь 2024 года бенчмарку ARC-AGI исполнилось пять лет, и он по-прежнему остается непобежденным. Мы считаем, что на данный момент это самый важный нерешенный ИИ-бенчмарк в мире, поскольку он нацелен на измерение способностей к обобщению умений на решение новых задач, что составляет «суть интеллекта», в отличие от умения решать задачи, к которым можно подготовиться заранее. В этом году мы объявили ARC Prize, глобальный конкурс, призванный вдохновить новые идеи и стимулировать прогресс в области AGI путем достижения целевого показателя в 85 %. В результате текущий результат в наборе частных оценок ARC-AGI вырос с 33 % до 55,5 %, чему способствовали несколько передовых техник и методов AGI, включая синтез программного кода на основе глубокого обучения (deep learning-guided program synthesis) и обучение в тестовое время (test-time training). В этой статье мы проведем обзор лучших подходов, рассмотрим новые реализации с открытым исходным кодом, обсудим ограничения набора данных ARC-AGI-1 и поделимся ключевыми идеями, полученными в ходе соревнований.
1 Введение: ARC-AGI
Франсуа Шолле (François Chollet) впервые написал об ограничениях глубокого обучения в 2017 году (5). В 2019 году он формализовал эти наблюдения в новое определение искусственного интеллекта (ИИ), охарактеризовав его как систему, способную эффективно приобретать новые навыки и решать новые задачи, для которых она не была ни явно разработана, ни обучена. (7)
Наряду с этим определением Шолле опубликовал бенчмарк - корпус абстракций и рассуждений (Abstraction and Reasoning Corpus, ARC) (6) (позже переименованный в ARC-AGI, чтобы избежать смешения названия с другими бенчмарками ИИ) как первую конкретную попытку измерить это определение интеллекта. Мы будем называть этот набор данных ARC-AGI-1. Он представляет собой набор независимых "задач" (см. рис. 1), каждая из которых состоит из нескольких "демонстрационных пар" (двух или более, медиана - три) и одного или более "тестовых входов".
Тестовая пара состоит из "входной сетки", прямоугольной сетки переменного размера (до максимального размера 30 строк на 30 столбцов), где каждая ячейка может иметь одно из десяти различных"значений", и "выходной сетки", которая должна быть полностью выводима из характеристик входной сетки. Цель состоит в том, чтобы с помощью демонстрационных пар понять природу задачи и использовать это понимание для построения выходной сетки, соответствующей каждому входному тесту. Тестируемому дается две попытки на каждый входной тест.
Определяющей характеристикой бенчмарка является то, что ни к одному из заданий нельзя подготовиться заранее. Каждое задание в наборе данных следует своей логике. Все задания были созданы людьми, чтобы обеспечить высокую степень новизны и разнообразия.
Для решения задач ARC-AGI не требуется ни специальных знаний о мире (например, исторических фактов), ни языка.
Единственное предполагаемое предварительное знание - это Core Knowledge (7), концепция, объединяющая такие понятия, как объектность, базовая топология, элементарная целочисленная арифметика и т.д. Базовые знания (Core Knowledge) человека были исследованы Spelke и др. (22). Эти знания приобретаются детьми очень рано (как правило, до четырех лет) и являются универсальными для всех людей. Публичные тренировочные задания ARC-AGI-1 разработаны таким образом, чтобы ознакомить испытуемых со всеми базовыми знаниями, необходимыми для решения задач ARC-AGI.
1.1 Состав набора данных
ARC-AGI-1 состоит из 1 000 задач, разбитых на четыре подмножества:
Публичные тренировочные задачи (400 ед, легкие) - предназначены для демонстрации формата задач и позволяют выучить сущности Core Knowledge
Публичные оценочные задачи (400 ед, трудные) - предназначены для того, чтобы исследователи могли локально оценить свою работу
Полу-приватные оценочные задачи (100 ед, трудные) - предназначены для оценки сторонних подходов, которые опираются на общедоступные коммерческие API. Это полу-приватные задачи, потому что, хотя они не были публично опубликованы, они подвергались воздействию коммерческих API и, таким образом, подвергались риску утечки
Приватные оценочные задания (100, трудные) - предназначены для оценки отдельных подходов. Они полностью приватны и теоретически не подвержены утечкам.
Еще несколько тестовых примеров задач (сможете ли вы их решить?):
Для снижения риска чрезмерной подгонки и загрязнения данных современные оценки приводятся только для набора задач частной оценки.
Еще одна важная особенность задач ARC-AGI заключается в том, что они сложны для систем искусственного интеллекта и в то же время просты для человека. Оригинальные частные задачи были протестированы двумя людьми, которые набрали 97 и 98 % баллов, а вместе решили все 100 %. Нью-Йоркский университет опубликовал результаты недавнего тестирования работников Mechanical Turk, которые показали, что 99 % публичных оценочных задач были решены как минимум одним работником, причем на каждую задачу было назначено 10 работников. (18)
1.2 Прогресс до 2024 года
ARC-AGI был использован в трех публичных конкурсах до ARC Prize 2024:
2020 год: Первый конкурс ARC-AGI Kaggle (призовые 20 000 долларов США) (9)
2022: ARCathon 1 (призы 100 000 долларов) (16)
2023: ARCathon 2 (100 000 долларов США в качестве призов) (17)
После выпуска ARC-AGI-1 оказалось, что чистые подходы глубокого обучения плохо работают на ARC-AGI, поскольку классическая парадигма глубокого обучения работает на основе соотнесения новых ситуаций с ситуациями, наблюдавшимися во время обучения, без адаптации или рекомбинации знаний во время тестирования, что делает невозможным для таких моделей восприятие совершенно новых задач во время тестирования. В первом конкурсе Kaggle (2020) ни один подход, основанный на глубоком обучении, не набрал более 1 %. Оригинальная модель GPT-3 от OpenAI набрала 0 % при публичной оценке с использованием прямых подсказок.
Несмотря на то, что ARC-AGI был создан до появления больших языковых моделей (LLM), в период 2022-2024 годов он не поддавался им, несмотря на рост параметров LLM.
Первый конкурс ARC-AGI был проведен на Kaggle в 2020 году (9) с максимальным результатом 20 %. Спустя четыре года максимальный балл вырос до 33 %. Отсутствие прогресса в ARC-AGI можно объяснить отсутствием прогресса в AGI. С 2020 по начало 2024 года в области исследований ИИ доминировали системы глубокого обучения, которые повышали навыки решения конкретных задач, но не улучшали способность решать задачи, у которых не было доступных обучающих данных во время обучения (так называемый "общий интеллект"). Мы считаем, что в этот период прогресс на пути к AGI застопорился - системы ИИ становились все больше и запоминали все больше обучающих данных, но универсальность систем передовых LLM не имела тенденции к росту.
2 Результаты ARC Prize 2024
2.1 Kaggle Leaderboard
Неудовлетворительные результаты наиболее передовых LLM в ARC-AGI в начале 2024 года были явным свидетельством концептуальных ограничений, препятствующих прогрессу AGI. В ответ мы учредили ARC Prize (15), чтобы вдохновить ИИ-исследователей работать над новыми идеями и открыто делиться ими. Большинство передовых исследований в области ИИ больше не публикуются лабораториями-разработчиками, поэтому ARC Prize стимулирует и поощряет открытый обмен информацией.
Конкурс ARC Prize 2024 стартовал 11 июня 2024 года и завершился 10 ноября 2024 года. Конкурс проводился как на сайте kaggle.com, так и на сайте arcprize.org. Призы включали главный приз в размере 600 000 долларов США для первой команды, достигшей 85 % по частному набору оценок, 50 000 долларов США в качестве призов за прогресс, привязанных к таблице лидеров Kaggle, и 75 000 долларов США в качестве призов за лучшие статьи. Главный приз так и не был вручен.
Победители 2024 года представлены в таблице 1. Все результаты находятся в открытом доступе и воспроизводятся на сайте arcprize.org.
Победители соревновались на Kaggle, где их модели пытались решить 100 задач из частного набора оценок на виртуальной машине с одним GPU P100 менее чем за 12 часов без доступа к интернету. Только те, кто выложил свое решение в открытый доступ, могли быть названы победителями и претендовать на призы. Компания MindsAI получила наивысший балл 55,5 % в частном наборе задач, но решила не выкладывать свое решение в открытый доступ и поэтому не смогла получить приз.
2.2 Публичная таблица лидеров
В дополнение к таблице лидеров Kaggle в рамках ARC Prize была создана дополнительная таблица лидеров, ARC-AGI-Pub, которая позволяла получить доступ к Интернету и ослабить ограничения на вычисления, чтобы оценить производительность, потенциально достижимую моделями. Из-за риска утечки данных заявки проверялись не на приватном наборе оценок, а на полу-приватном (100 задач). Мы сообщали о результатах наряду с публичным набором оценок (400 задач), чтобы избежать чрезмерной подгонки. Мы считаем, что оценки завышены, если абсолютная разница между полу-приватным и публичным набором оценок превышает ±10%. Все оценки доступны с открытым исходным кодом и воспроизводятся на сайте arcprize.org.
Это соревнование предоставило участникам примерно в 1 000 раз больше времени для вычислений, чем Kaggle Leaderboard.
Участникам ARC-AGI-Pub разрешалось использовать до 10 000 долларов в кредитах API, в то время как участники Kaggle могли использовать только эквивалент 10 долларов вычислений на одного участника. Приз ARC покрывал расходы на API для получения высоких результатов в публичной таблице лидеров.
Итоговые результаты 2024 года в публичной таблице лидеров приведены в таблице 2. В коммерческих результатах API используется общедоступный подход с прямыми подсказками (идентичный для всех моделей). Удивительно, но результаты конкурса и вторичные результаты в публичной таблице лидеров тесно связаны. Это говорит о том, что алгоритмические улучшения в AGI обладают значительной силой и что для победы над ARC-AGI могут не потребоваться огромные вычисления.
2.3 Paper Awards
В рамках ARC Prize 2024 также были учрежден "Paper Awards" для поощрения новых концепций, независимо от того, какие оценки получили их решения. Призы были присуждены следующим работам (все работы представлены вместе с открытым исходным кодом на сайте arcprize.org):
Первое место: Li и др., "Combining Induction and Transduction for Abstract Reasoning" - «Комбинирование индукции и трансдукции для абстрактных рассуждений»
Второе место: Akyürek и др.., "The Surprising Effectiveness of Test-Time Training for Abstract Reasoning" - «Удивительная эффективность обучения абстрактному мышлению в тестовом режиме»
Третье место: Bonnet and Macfarlane, "Searching Latent Program Spaces" - «Поиск скрытых программных пространств»
Призеры:
- Franzen et al., (the ARChitects): "The LLM ARChitect: Решение проблемы ARC - это вопрос перспективы"
- Barbadillo,"Omni-ARC"
- Fletcher-Hill, "Mini-ARC: решение головоломок абстракции и рассуждений с помощью небольших моделей трансформеров"
- Ouellette, "Towards Efficient Neurally-Guided Program Induction for ARC-AGI" - «На пути к эффективному нейроуправляемому индуктированию программ для ARC-AGI»
- Puget, "A 2D nGPT Model For ARC Prize"
В общей сложности 1 430 команд подали 17 789 заявок на участие в ARC Prize 2024. Многие финансируемые стартапы также сместили приоритеты в сторону работы над ARC-AGI - мы слышали о семи таких компаниях в этом году. Кроме того, многие крупные корпоративные лаборатории уже развернули внутренние усилия по решению проблемы ARC-AGI.
Хотя нам предстоит пройти долгий путь к AGI, мы рады, что ARC Prize стал катализатором нескольких новых подходов к рассуждениям AGI с открытым исходным кодом, в частности обучения в тестовое время (test-time training), подход, который мы впервые увидели в использовании Джеком Коулом в 2023 году, а затем популяризировали в этом году благодаря ARC Prize.
3 Лучшие подходы
До 2024 года все лучшие подходы ARC-AGI опирались на дискретный поиск подходящих программ (discrete program search), начиная с победившей в 2020 году заявки icecuber (9), которая использовала исключительно перебор программ для достижения 20% на частном наборе оценок.
В течение следующих четырех лет прогресс был медленным. Несмотря на появление LLM (например, GPT-3, 3.5, 4), попытки использовать эти системы для победы над ARC-AGI были безуспешными. Прогресс в основном заключался в улучшении языков, специфичных для конкретной области (DSL), в частности, языка, созданного Майклом Ходелом (12), который повысил производительность процесса поиска программ.
Однако во время проведения ARC Prize 2024 прогресс вновь ускорился, и катализатором стали три основные категории подходов:
Deep learning-guided program synthesis - Синтез программ на основе глубокого обучения: Использование моделей глубокого обучения, в частности специализированных кодовых LLM, для генерации программ, решающих задачи, или для управления процессом поиска программ, выходящим за рамки слепых методов грубой силы.
Test-time training (TTT) for transductive models - Обучение в тестовом режиме (TTT) для трансдуктивных моделей: Тонкая настройка LLM во время обучения на заданной спецификации задачи ARC-AGI с целью рекомбинации предыдущих знаний LLM в новую модель, адаптированную к решаемой задаче. Трансдуктивная модель - это модель, которая пытается непосредственно предсказать выходную сетку при наличии тестовой входной сетки и спецификации задачи, вместо того чтобы сначала пытаться написать программу, соответствующую задаче.
Combining program synthesis together with transductive models - Объединение синтеза программ с трансдуктивными моделями: Объединение двух вышеупомянутых подходов в один суперподход, основанный на наблюдении, что каждый подход склонен решать различные типы задач.
Первое интересное достижение года принадлежит Райану Гринблатту (Ryan Greenblatt), который достиг 42% в таблице лидеров ARCAGI-Pub (11), используя подход к синтезу программ под руководством LLM. Его решение использует GPT-4o для поиска тысяч программ на Python
для каждой задачи (и итеративной отладки наиболее перспективных), чтобы найти программу, которая успешно отображает примеры ввода/вывода задачи.
За 5 месяцев конкурса одна из лучших команд, MindsAI, улучшила свой результат на приватном оценочном наборе ARC-AGI-1 с 33 % (достигнутый той же командой по итогам конкурса 2023 года) до 55,5 %.
MindsAI стала пионером в обучении ARC-AGI в тестовом режиме, начиная с 2023 года. Хотя они решили не делиться публично своей реализацией TTT в 2024 году, они вдохновили многие команды на создание своих собственных.
Примечательно, что ARChitects, завоевавшие первое место в ARC Prize 2024, использовали TTT, получив 53,5% в приватной оценке, а получившие второе место в номинации «Paper Awards», Ekin Akyürek и команда, использовали TTT для выхода на 47,5% в полу-приватном наборе оценок. Оба продукта были открыты в результате конкурса и доступны на сайте arcprize.org.
3.1 Синтез программ на основе глубокого обучения
Выпустив ARC-AGI в 2019 году, Шолле предположил, что ее можно рассматривать как бенчмарк для синтеза программ, и что ее можно решить, используя модели глубокого обучения для управления процессом поиска дискретных программ, тем самым решая проблему узкого места синтеза программ - комбинаторного взрыва. Такой подход был подробно описан в докладе Шолле на AI Fall Symposium в ноябре 2020 года (8). В соревновании 2020 года полностью доминировала техника перебора программ, а рост числа LLM, способных генерировать код, начиная с 2023 года, привел к появлению более эффективных решений для синтеза программ, которые использовали LLM для написания программ-кандидатов, которые затем оценивались интерпретатором кода.
Синтез программ для ARC-AGI до сих пор был представлен в следующих вариантах:
Грубый поиск на Domain Specific Language, DSL: Этот подход предполагает исчерпывающий поиск в пространстве возможных программ в рамках заданного DSL. Несмотря на теоретическую завершенность, он не может самостоятельно масштабироваться на сложные программы, так как страдает от комбинаторного взрыва при увеличении размера DSL и размера желаемой программы. Это первый подход, который дал положительные результаты на ARC-AGI, и уже в 2020 году мы получили доказательство существования очень простой, требующей относительно мало вычислительной мощности стратегии перебора, которая позволила достичь 49 % на приватном наборе, собрав вместе все конкурсные работы 2020 года. Наивысший результат, полученный на Kaggle при использовании этого подхода, составил 40 % на приватном наборе (автор Агнис Лиукис, название команды alijs).
Генерация программ на открытых языках с помощью LLM: LLM, предварительно обученные на данных, связанных с программированием, могут быть использованы для генерации программ на языках общего назначения, таких как
Python
. Гринблатт (11) продемонстрировал подход, при котором GPT-4o, получив описание задачи (содержащее демонстрационные пары), генерировал тысячи программ-кандидатов наPython
для решения задачи, которые затем запускались интерпретатором кода и отбирались на основе их производительности на демонстрационных парах. Для успешной работы такой подход требует значительных усилий по оперативному проектированию и полагается на детерминированную оценку потенциально огромного количества сгенерированных программ.Направляемый LLM поиск дискретных программ на DSL: этот подход сочетает в себе некоторые сильные стороны как поиска дискретных программ на основе DSL, так и LLM. Ouellette (21) продемонстрировал эту стратегию, используя LLM для управления процессом поиска в DSL, эффективно сокращая пространство поиска и повышая эффективность.
Итеративная отладка программ на основе LLM: Вместо того чтобы генерировать полные программы с нуля, LLM можно использовать для итеративной отладки и доработки программ, сгенерированных эвристически или близких к правильным. Гринблатт (11) также исследовал этот подход, используя LLM для выявления и исправления ошибок в наиболее перспективных некорректных программах (отобранных с помощью эвристического критерия), что привело к улучшению производительности ARC-AGI.
Один из подходов, который до сих пор не был опробован (вероятно, потому, что это технически сложно), но который, как мы ожидаем, даст хорошие результаты в будущем, - это использование специализированных моделей глубокого обучения для управления решениями о ветвлении в процессе поиска дискретных программ, аналогично тому, что можно увидеть в системе AlphaProof от Google DeepMind (2).
Мы ожидаем, что в ближайшие 12-24 месяца синтез программ, а также тесно связанные с ним методы поиска в тестовом времени будут использоваться всеми ключевыми LLM. Это приведет к тому, что в будущем возникнет необходимость в формальном отчете об эффективности с оценками бенчмарка, поскольку любой подход, основанный на поиске, всегда может получить более высокую оценку, если ему предоставить больше вычислительных ресурсов, и, таким образом, уже невозможно будет присвоить оценку чистому подходу, а только комбинации подхода и вычислительного бюджета. Например, по нашим оценкам, подход, подобный подходу Гринблатта, может достичь 85 % балла ARC-AGI при генерации, оценке и отладке примерно 100 000 000 программ на задачу, что представляет собой многомиллионный бюджет вычислений для решения 100 задач.
Также нужно отметить, что синтез программ на основе глубокого обучения в настоящее время не имеет решающих преимуществ перед поиском программ на основе DSL - обе эти технологии при сопоставимых вычислительных бюджетах имеют результат в районе 40%. Мы ожидаем, что в будущем более эффективные методы поиска программ, использующие глубокое обучение, смогут уйти от грубого поиска.
3.2 Обучение во время тестирования
Классическая парадигма глубокого обучения, примером которой могут служить LLM 2022-2023 годов, предполагает сначала обучение модели на большом наборе данных, а затем выполнение выводов с помощью замороженной версии модели. Однако решение ARC-AGI не ограничивается простым поиском и применением заученных шаблонов, оно требует способности адаптироваться к конкретной задаче в момент тестирования. Это привело к появлению метода обучения во время тестирования (emergence of test-time training, TTT), также известного как точная настройка / файнтюнинг во время тестирования (test-time fine-tuning, TTFT), в качестве доминирующего подхода в решениях ARC-AGI на базе LLM. На сегодняшний день все лучшие LLM-подходы к трансдукции для ARC-AGI используют TTT, и не существует ни одного решения для трансдукции в стиле статического вывода, которое набрало бы более 10%. Этот резкий разрыв подчеркивает неспособность классической парадигмы глубокого обучения обобщать новые задачи.
TTT в данном контексте предполагает тонкую настройку предварительно обученного LLM на демонстрационных парах каждого экземпляра задачи, наблюдаемого во время тестирования, эффективно создавая различные варианты базовой модели для каждой задачи. Затем модель побуждается к прямому предсказанию выходной решетки (трансдукция).
Интересно, что TTT можно рассматривать как концептуально схожий с поиском программ, хотя и на противоположном конце спектра запоминания/рекомбинации. В обоих случаях для решения задачи требуется рекомбинировать уже существующие строительные блоки. Поиск программ обычно использует глубокую рекомбинацию небольшого набора общих примитивов программирования.
TTT, с другой стороны, использует огромное количество специализированных "строительных блоков" (векторные функции, найденные в весах предварительно обученного LLM) и выполняет неглубокую рекомбинацию посредством градиентного спуска в тестовое время.
Ключевые аспекты применения TTT в ARC-AGI включают:
Расширение данных и альтернативные наборы данных: Учитывая ограниченный размер набора данных ARC-AGI-1, успешное применение TTT в значительной степени зависит от увеличения количества ARC-AGI-подобных данных, доступных для предварительного обучения, либо с помощью альтернативных наборов данных, таких как BARC (набор данных из 400 000 дополнительных ARC-подобных задач, выпущенный Эллисом и др. (19), Re-ARC (программная реализация обучающего набора ARC-AGI, позволяющая бесконечно выбирать новые экземпляры 400 учебных задач, выпущенная Ходелом (13)) или тщательно разработанных дополнений к данным. ARChitects (10), например, ввели новые дополнения и критерий отбора, основанный на стабильности сгенерированных решений при этих дополнениях.
Стратегии тонкой настройки / файнтюнинг: Для адаптации LLM во время тестирования были исследованы как файтюнинг LoRA (14), так и полный файнтюнинг. Файнтюнинг выполняется на дополненных демонстрационных парах, полученных на основе конкретного рассматриваемого тестового образца.
Специализированные 2D-архитектуры: Эффективные TTT часто используют специализированные архитектуры трансформеров, приспособленные для визуальных рассуждений. Это включает использование механизмов 2D внимания или 2D позиционных кодировок (как в модели Puget/NVIDIA в "2D nGPT Model for ARC Prize" (4)) для лучшего отражения пространственных отношений во входных сетках.
Примеры ТТТ, используемых в ARC Prize 2024:
OmniARC (Barbadillo (3)): Модель Qwen2.5-0.5B-Instruct, предварительно обученная на нескольких задачах индукции программ, и далее уточненная во время тестирования с помощью дополненных данных ARC. Они сочетают ее с подходом к синтезу программ для создания конкурентоспособного ансамбля.
Akyürek et al. (1): Модель с 8 параметрами, использующая TTT, достигла 53 % точности на публичном наборе оценок.
MindsAI (20): Модель серии Salesforce T5, предварительно обученная на публичном наборе оценок и синтетических данных, в процессе тестирования подвергается файнтюнингу на каждой частной задаче.
ARChitects (10): Фундаментальная модель NeMo-Minitron-8B с обширным дополнением данных и новым критерием выбора, основанным на стабильности решения при дополнениях.
Вариант TTT предполагает поиск в латентном пространстве LLM, как в работе Bonnet и MacFarlane (4). Этот подход использует случайный поиск и градиентный спуск для поиска лучших представлений программы в латентном пространстве модели - новый подход к адаптации во время тестирования, который не является ни файнтюнингом, ни дискретным поиском.
В целом, мы ожидаем, что обучение во время тестирования станет основной методикой, с помощью которой системы ИИ на базе LLM смогут улучшать производительность на задачах, выходящих за рамки тех, на которые они были предварительно обучены. В сравнении с синтезом программ, ТТТ сложнее внедрить в производственные системы, поэтому мы ожидаем, что он не будет внедрен в производство в течение нескольких лет, но так или иначе, он или основанные на нём методы должны стать популярными с 2026 года.
3.3 Сочетание синтеза программ с трансдукцией
К решению ARC-AGI можно подойти двумя способами:
Синтез программ или "индукция": На основе демонстрационных пар тестового задания нужно найти программу или функцию, которая превращает входные сетки в соответствующие им выходные сетки, а затем применить эту программу к тестовой входной сетке (сеткам).
Трансдукция: На основе демонстрационных пар тестовой задачи и входной сетки непосредственно предсказать соответствующий выход, например, запросив у LLM описание задачи и тестовый вход.
Как только подходы, основанные на трансдукции, стали показывать результат выше нуля (в конце 2023 года, пионером стал Джек Коул), исследователи заметили, что программный поиск и трансдукция способны решать существенно отличающиеся наборы задач. Позже этот вопрос был подробно исследован Ли и др. в работе в "Combining Induction and Transduction for Abstract Reasoning" (19).
Сегодня все лучшие результаты (например, Akyürek and Berman в публичной таблице лидеров, ARChitects, Barbadillo и MindsAI в таблице лидеров Kaggle) используют комбинацию трансдукции и индукции. Лучшие одиночные работы, использующие только трансдукцию или только индукцию, набирают около 40%, поэтому только совокупность обоих комбинаций может претендовать на звание лучшего.
4 Будущее
Мы взяли на себя обязательство проводить ARC Prize ежегодно, пока бенчмарк ARC-AGI не будет полностью решен и не появится публичное эталонное решение. ARC Prize 2024 был крупномасштабным экспериментом, который мы считаем очень успешным, и мы стремимся превратить ARC Prize из экспериментального проекта в путеводную звезду для разработки AGI. Мы используем опыт, полученный в ходе ARC Prize 2024, для создания будущих версий как конкурса, так и бенчмарка.
4.1 ARC Prize: 2025 год и далее
Мы рады, что ARC Prize привлекла заметное внимание к новым идеям AGI. Мы ожидали, что ARC Prize подтолкнет ученых, независимых исследователей и крупные лаборатории к тому, чтобы вновь обратить внимание на ARC-AGI. Но мы были удивлены тем, насколько финансируемые стартапы, занимающиеся исследованиями в области ИИ, изменили свои дорожные карты, сделав приоритетом победу над этим бенчмарком. Сейчас нам известно как минимум о семи попытках решить проблему ARC-AGI, предпринимаемых организациями с объемом финансирования более 1 млн долларов, включая Basis AI (basis.ai), Tufa Labs (tufalabs.ai), Agemo (agemo.ai) и Symbolica (symbolica.ai).
У всех этих групп разные стимулы (например, для венчурных стартапов и крупных корпоративных лабораторий призов за решение бенчмарка будет недостаточно), и мы планируем изменить дизайн конкурса 2025 года, чтобы учесть это. Наша цель - обеспечить наилучший ориентир на AGI для всего спектра участников исследований в области ИИ, от академических лабораторий до стартапов и крупных лабораторий.
4.2 ARC-AGI-2
Набор приватных оценок ARC-AGI-1 остается неизменным с 2019 года, и известно, что он страдает рядом недостатков. Во-первых, он ограничен всего 100 задачами. Эти 100 задач использовались во всех четырех соревнованиях ARC-AGI для отчета о промежуточных результатах в таблице лидеров, и в результате на данный момент участникам было сообщено порядка 10 000 оценок из частного набора оценок. Это представляет собой значительный риск перебора, поскольку каждая оценка способна извлечь ничтожно малое, но ненулевое количество информации о содержании скрытых заданий. Надежность бенчмарка можно повысить, увеличив размер выборки и используя два отдельных набора данных: один для промежуточных оценок в таблице лидеров (более крупный полу-приватный набор оценок) и другой для итоговых оценок (более крупный приватный набор оценок). Такой подход устраняет риск чрезмерной подгонки под приватный набор оценок.
Кроме того, несмотря на то, что 20% - это наивысший результат для всех заявок 2020 года, анализ всех заявок 2020 года показал, что 49% приватных оценок были решены как минимум одной командой (все они использовали те или иные варианты перебора программ). Это говорит о том, что большая часть набора данных ARC-AGI-1 слишком восприимчива к подобным методам перебора программ и поэтому не несет полезного сигнала в отношении AGI. Достаточно большая часть набора данных оказалась достаточно интересной, и именно поэтому ARC-AGI остается нерешенной полностью.
Наконец, по некоторым свидетельствам, различные наборы данных для оценки имеют разные уровни сложности для человека, что затрудняет сравнение баллов между оценками.
Чтобы решить эти проблемы и при этом сохранить привычный формат задач ARC-AGI, мы активно работаем над ARC-AGI-2 и планируем запустить новый набор данных вместе с конкурсом 2025 года.
5 Заключение
ARC Prize 2024 стал весьма успешным экспериментом - осведомленность о бенчмарке значительно повысилась, появилось несколько новых подходов, что позволило довести уровень решений с 33% до 55,5%. Однако ARC-AGI остается непобежденным - все еще со значительным отрывом, особенно учитывая, что результат в 49 % был технически достижим с помощью базового перебора программ еще в 2020 году. Для создания AGI по-прежнему необходимы новые идеи. Тот факт, что ARC-AGI пережила пять месяцев напряженного тестирования, с главным призом в 600 000 долларов и сотнями тысяч долларов в качестве дополнительных призов, является убедительным доказательством того, что решения пока не существует. Мы вдохновлены, гордимся и надеемся, что ARC-AGI сыграла важную роль в переключении внимания на новые исследовательские идеи. Мы уверены, что команда, которая в конечном итоге создаст AGI, думает об ARC-AGI уже сегодня, и мы обязуемся сохранить это внимание как путеводную звезду на пути к AGI.
Однако, статья была написана 4 декабря, а уже 20 декабря система o3 от OpenAI набрала 85%
6 Приложение
6.1 Экосистема ARC-AGI
Премия ARC вдохновила сообщество исследователей и разработчиков, которые предоставили ценные инструменты, наборы данных и репозитории для поддержки как участников конкурса, так и всего сообщества ИИ.
ARC-DSL - специфический язык для работы с задачами ARC-AGI: Репозиторий GitHub
ConceptARC - бенчмарк в домене ARC-AGI, систематически оценивающий способности к абстрагированию и обобщению по ряду базовых пространственных и семантических "концептуальных групп": Репозиторий GitHub
RE-ARC - репозиторий для процедурной генерации примеров для учебных задач ARC-AGI: Репозиторий GitHub
BARC - Инструменты для генерации синтетических задач ARC-AGI: Репозиторий GitHub
arcsolver - Библиотека Python для автоматического решения ARC-задач с использованием Claude и объектно-ориентированного моделирования: Репозиторий GitHub
ARC Interactive - интерактивный веб-инструмент для работы с задачами ARC-AGI: Ссылка
Arckit - инструменты на языке Python и командной строки для удобной работы с корпусом абстракций и рассуждений: Репозиторий GitHub
The ARC Game - UI интерфейс для ARC-AGI Tasks: Ссылка
ARC Gym - фреймворк для генерации данных, помогающий исследовать и разрабатывать решение проблем композиционного обобщения и эффективного поиска: Репозиторий GitHub
Open Source Kaggle Notebooks - Сотни публично размещенных материалов Kaggle для ARC Prize 2024: Код конкурса Kaggle
Многочисленные другие ресурсы перечислены в официальном техническом руководстве ARC Prize.
6.2 Благодарности
ARC Prize опирается на наследие предыдущих конкурсов ARC-AGI: конкурс 2020 года на Kaggle, а также “ARCathons” 2022 и 2023 годов, которые были совместной работой François Chollet и некоммерческой лаборатории ИИ Lab42, расположенной в Давосе. Мы благодарны команде Lab42 Rolf Pfister, Oliver Schmid, и Hansueli Jud за их опыт и поддержку в обеспечении плавного перехода для сообщества ARC-AGI.
Их вклад был значительным в обеспечение масштабных соревнований и продвижение таких инициатив, как ARC-AGI-2.
Мы также хотели бы отметить самоотверженность прошлых участников ARCathon, которые не только поддерживали бенчмарк, но и благодаря предыдущей работе быстро ввели в курс дела новых членов сообщества. В частности, мы благодарим Майкла Ходела, Джека Коула, Мохамеда Османа и Саймона Уэлетта за их постоянные усилия по разработке решений ARC-AGI. Особого признания заслуживает Саймон Страндгаард за его исключительную роль в качестве посла сообщества и активного разработчика открытых исходных кодов.
Наконец, мы выражаем глубочайшую благодарность всем участникам ARC Prize 2024, особенно тем, кто поделился своей работой с сообществом. Ваша преданность делу способствует развитию широкой области ИИ, приближая нас к реализации преобразующего потенциала AGI для человечества.
Ссылки на работы:
1. Ekin Akyürek, Mehul Damani, Linlu Qiu, Han Guo, Yoon Kim, and Jacob Andreas. The Surprising Effectiveness of Test-Time Training for Abstract Reasoning. https://arxiv.org/abs/2411.07279, 2024.
2. AlphaProof and AlphaGeometry teams. AI achieves silver-medal standard solving International Mathematical Olympiad problems. https://deepmind.google/discover/blog/ ai-solves-imo-problems-at-silver-medal-level/, July 2024. Accessed: 2024-12-04.
3. Guillermo Barbadillo. Solution Summary for ARC24. https://ironbar.github.io/arc24/05_ Solution_Summary/, 2024. Accessed: 2024-11-27.
4. Clément Bonnet and Matthew V. Macfarlane. Searching Latent Program Spaces. https://github.com/ clement-bonnet/lpn/blob/7f86b1d11ea37ba173700dbac8604393eac6da37/paper.pdf, 2024. Proposes Latent Program Network (LPN), an algorithm for program induction applied to the ARC-AGI benchmark.
5. François Chollet. Deep Learning with Python. Manning Publications Co., Shelter Island, NY, 2017. 6. François Chollet. Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI). https://github.com/fchollet/ARC-AGI, 2019. 7. François Chollet. On the Measure of Intelligence. https://arxiv.org/abs/1911.01547, 2019.
8. François Chollet. AAAI Fall Symposium Talk. “Abstraction & Reasoning: What Deep Learning can do, what it can’t, and what we can try next”. https://docs.google.com/presentation/d/ 1yqE5AYS4l9mzn17WjnSKEmvqydgw-CsAYrs_TPClOFA, 2020.
9. François Chollet, Katherine Tong, Walter Reade, and Julia Elliott. Abstraction and Reasoning Challenge. https://kaggle.com/competitions/abstraction-and-reasoning-challenge, 2020. Kaggle.
10. Daniel Franzen, Jan Disselhoff, and David Hartmann. The LLM ARChitect: Solving the ARC Challenge Is a Matter of Perspective. https://github.com/da-fr/arc-prize-2024/blob/main/the_ architects.pdf, 2024. Achieved 53.5 points on the hidden test set and solved 72.5/100 tasks in the public evaluation set during ARC-Challenge 2024.
11. Ryan Greenblatt. Submission for ARC Prize. https://www.kaggle.com/code/rgreenblatt/ rg-basic-ported-submission?scriptVersionId=184981551, 2024. Achieved 42% on the public evaluation leaderboard using a LLM-guided program synthesis approach.
12. Michael Hodel. ARC-DSL: A Domain-Specific Language for Solving ARC Tasks. https://github.com/ michaelhodel/arc-dsl, 2024. Contains a DSL for solving ARC tasks, proof-of-concept solvers, and a detailed write-up.
13. Michael Hodel. RE-ARC: Reverse-Engineering the Abstraction and Reasoning Corpus. https: //github.com/michaelhodel/re-arc, 2024.
14. Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. LoRA: Low-Rank Adaptation of Large Language Models. https://arxiv.org/abs/ 2106.09685, 2021.
15. Mike Knoop, François Chollet, Bryan Landers, and Greg Kamradt. ARC Prize. https://arcprize. org/, 2024. Accessed in 2024. Hosts: Mike Knoop, François Chollet. Operations: Bryan Landers, Greg Kamradt.
16. Lab42. ARCathon 2022. https://lab42.global/past-challenges/2022-arcathon/, 2022.
17. Lab42. ARCathon 2023. https://lab42.global/past-challenges/2023-arcathon/, 2023.
18. Solim LeGris, Wai Keen Vong, Brenden M. Lake, and Todd M. Gureckis. H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark. https://arxiv.org/ abs/2409.01374, 2024.
19. Wen-Ding Li, Keya Hu, Carter Larsen, Yuqing Wu, Simon Alford, Caleb Woo, Spencer M. Dunn, Hao Tang, Michelangelo Naim, Dat Nguyen, Wei-Long Zheng, Zenna Tavares, Yewen Pu, and Kevin Ellis. Combining Induction and Transduction for Abstract Reasoning. https://arxiv.org/abs/2411.02272, 2024.
20. led by Jack Cole MindsAI Team. MindsAI Submission for ARC Challenge 2024. https://www.kaggle. com/jcole75, 2024. ARC Challenge 2024 submission by the MindsAI team.
21. Simon Ouellette. Towards Efficient Neurally-Guided Program Induction for ARC-AGI. https: //drive.google.com/file/d/1sFlK3mhz8kH2agdE379o0ODQWYkrSD0b/view, 2024. Explores neurallyguided program induction techniques for the ARC-AGI benchmark.
22. Elizabeth S. Spelke and Katherine D. Kinzler. Core knowledge. Developmental science, pages 89–96, 2007.