technokratiya Dec 23 2024 at 15:10

Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub

5 min

7.4K

Artificial IntelligenceMachine learning*Natural Language Processing*

Comments 5

MainEditor0 Dec 24 2024 at 03:07

Trust-me-bro (верь-мне-бро) бенчмарк

Flux Dec 24 2024 at 05:02

Нейрохомяки получили ещё один "авторитетный бенчмарк" и будут с удвоенной силой рассказывать что LLM это почти совсем уже AGI, вот капельку осталось всего.

Вопрос о том как можно одновременно иметь проверяемый публичный датасет и гарантировать что модель на нём не училась как всегда обойдут стороной, как и прекрасные формулировки про semi-private.

Kristaller486 Dec 24 2024 at 10:09

Справедливости ради:

ARC Prize не скрывают (а сообщают в первых строчках отчета) то, что OpenAI обучили o3 на публичной части бенчмарка.

"Обычные" LLM, обученные на бенчмарке все равно решают задачи плохо.
Прогрон бенчмарка стоил 1,5 миллиона долларов на вычисления. Лимит, установленный ARC Prize - 10 тысяч.

Splinter91 Dec 24 2024 at 07:03

Окей выглядит сильно, а цена вопроса подписки, про 200 баксов стоит, а сколько стоить будет о3. Пойду во двор нефтяную вышку включу)

DenSigma Dec 24 2024 at 10:10

У разработчиков сети до ее выкладки были доступны вопросы этого "бенчмарка"?