Фонд Arc Prize, некоммерческая организация, сооснованная видным исследователем ИИ Франсуа Шолле, объявил в блоге в понедельник о создании нового, сложного теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.
Пока что новый тест, получивший название ARC-AGI-2, оказался непосильным для большинства моделей.
По данным таблицы лидеров Arc Prize, модели с акцентом на логическое мышление, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1% до 1,3% на ARC-AGI-2. Мощные, но не специализированные на рассуждениях модели — включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — показывают результат около 1%.
Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей.