Комментарии 4
А разве R1 от DeepSeek может работать с картинками? Про o1-pro от OpenAI могу ошибаться, но вроде тоже с картинками не работает. Тогда как они их тестировали?
Это для людей тест показывается в виде картинок, а для LLM это выглядит как текст с цифрами (матрица), где каждому цвету соответствует цифра от 1 до 9, а отсутствие цвета кодируется как 0.
На самом деле текстовую версию человеку решить тоже несложно: у меня получалось.
Пример
0 0 1 0 2 1
0 0 0 -> 0 2 2
0 0 0 0 0 0
0 0 0
0 0 0 -> ?
1 0 0Здравые люди, ну вы же понимаете, что все эти бенчмарки - ничего не значат на самом деле?
Любые новые бенчи, с любыми новыми абстракциями подстраивается через RL, добавив весов с новым респонсом.
PS: ARC - это не картинки, это матрица, там VL модели не нужны.
Попробуйте лучше научить LLM/"AGI" механизмам изоляции/атомарности без агентов. Только тогда она и сможет сама себя обучать.
Next level GPT6 - внедрение ONNX Runtime (нативное управление приложениями/сервисами внутри ОС). Глянем, но это сразу х100-x1000 по железу, чтобы продолжать вести RL
Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ