Search
Write a publication
Pull to refresh

Comments 5

Нейрохомяки получили ещё один "авторитетный бенчмарк" и будут с удвоенной силой рассказывать что LLM это почти совсем уже AGI, вот капельку осталось всего.

Вопрос о том как можно одновременно иметь проверяемый публичный датасет и гарантировать что модель на нём не училась как всегда обойдут стороной, как и прекрасные формулировки про semi-private.

Справедливости ради:

  1. ARC Prize не скрывают (а сообщают в первых строчках отчета) то, что OpenAI обучили o3 на публичной части бенчмарка.

  1. "Обычные" LLM, обученные на бенчмарке все равно решают задачи плохо.

  2. Прогрон бенчмарка стоил 1,5 миллиона долларов на вычисления. Лимит, установленный ARC Prize - 10 тысяч.

Окей выглядит сильно, а цена вопроса подписки, про 200 баксов стоит, а сколько стоить будет о3. Пойду во двор нефтяную вышку включу)

У разработчиков сети до ее выкладки были доступны вопросы этого "бенчмарка"?

Sign up to leave a comment.

Articles