Comments 5
Trust-me-bro (верь-мне-бро) бенчмарк
Нейрохомяки получили ещё один "авторитетный бенчмарк" и будут с удвоенной силой рассказывать что LLM это почти совсем уже AGI, вот капельку осталось всего.
Вопрос о том как можно одновременно иметь проверяемый публичный датасет и гарантировать что модель на нём не училась как всегда обойдут стороной, как и прекрасные формулировки про semi-private.
Справедливости ради:
ARC Prize не скрывают (а сообщают в первых строчках отчета) то, что OpenAI обучили o3 на публичной части бенчмарка.
"Обычные" LLM, обученные на бенчмарке все равно решают задачи плохо.
Прогрон бенчмарка стоил 1,5 миллиона долларов на вычисления. Лимит, установленный ARC Prize - 10 тысяч.
Окей выглядит сильно, а цена вопроса подписки, про 200 баксов стоит, а сколько стоить будет о3. Пойду во двор нефтяную вышку включу)
У разработчиков сети до ее выкладки были доступны вопросы этого "бенчмарка"?
Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub