Обновить

Комментарии 4

А разве R1 от DeepSeek может работать с картинками? Про o1-pro от OpenAI могу ошибаться, но вроде тоже с картинками не работает. Тогда как они их тестировали?

Это для людей тест показывается в виде картинок, а для LLM это выглядит как текст с цифрами (матрица), где каждому цвету соответствует цифра от 1 до 9, а отсутствие цвета кодируется как 0.

На самом деле текстовую версию человеку решить тоже несложно: у меня получалось.

Пример
0 0 1    0 2 1
0 0 0 -> 0 2 2
0 0 0    0 0 0

0 0 0
0 0 0 -> ?
1 0 0

У одного у меня, картинка с примером ничего не напоминает, и ничего не могу понять?) просто как будто ребенок раскидал кубики.

Здравые люди, ну вы же понимаете, что все эти бенчмарки - ничего не значат на самом деле?
Любые новые бенчи, с любыми новыми абстракциями подстраивается через RL, добавив весов с новым респонсом.
PS: ARC - это не картинки, это матрица, там VL модели не нужны.
Попробуйте лучше научить LLM/"AGI" механизмам изоляции/атомарности без агентов. Только тогда она и сможет сама себя обучать.
Next level GPT6 - внедрение ONNX Runtime (нативное управление приложениями/сервисами внутри ОС). Глянем, но это сразу х100-x1000 по железу, чтобы продолжать вести RL

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin