dilnaz_04 19 янв в 15:40

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3

3 мин

8.1K

Блог компании BotHubИскусственный интеллект

+11

Комментарии 14

nikitka_rr 19 янв в 17:03

Они также заключили устное соглашение с OpenAI, запрещающее компании использовать материалы для обучения своих моделей — это мера предосторожности, чтобы предотвратить манипулирование бенчмарком и не допустить публичного распространения задач.

Джентельмены верят друг другу на слово.

MainEditor0 19 янв в 17:08

Скорее «... ранее независимый математический бенчмарк... »

Hardcoin 19 янв в 18:26

Ранее называемый независимым.

Pyhesty 19 янв в 17:19

а есть более продвинутые модели кроме o1-o3?

Okloks 19 янв в 17:57

Посмотрите китайскую Deep Seek

Hardcoin 19 янв в 18:34

Она менее продвинутая. Но прогресс у китайцев стремительный.

Pyhesty 19 янв в 19:28

это было бы отлично, если есть альтернативы, однозначно нужны ещё модели

прогресс ИИ за последнее время настолько качественный, что может имхо считаться изобретением современности, если остальные направления ИТ не проявляют качественный прогресс, то ИИ открывает новые возможности...

откровенно хочется уже иметь личного ИИ помощника в кодинге, чуть ли не голосом, так как гуглить уже надоело, куча мусора в инете... =)))

sukhe 19 янв в 19:38

Вот на этом мусоре ваш ИИ помощник и будет обучаться

MainEditor0 20 янв в 08:48

Помощники уже есть. Далее — переход на автономные системы, которые повышают уровень абстракции ещё сильнее и убирают необходимость писать код.

rombell 24 янв в 11:23

... вместе с программистами

rPman 19 янв в 20:20

Напомню, o1 не модель, а агентная система поверх одной или нескольких не названных моделей (скорее файнтюна имеющихся).

Вы можете создать свою, вопрос поступает как часть промпта (заранее заданные в приложении) сразу в несколько запросов, ответы объединяются в контекст, который так же анализируется несколькими промптами типа:

какой информации тебе не хватает (вот этого в o1 не хватает, дверцы во внешние БД и интернет)
использование плагинов (калькулятор, компилятор с песочницей для проверки кода и т.п.)
а проверь ка ты вот эти выводы
лайфхаки типа 'глубоко вдохни' и 'подумай шаг за шагом' или 'а если подумать еще раз'
и окончательно спросить - 'так какой будет твой окончательный ответ'

вопрос можно 'обсасывать' долго, мало того, сам вопрос можно перефразировать, это так же меняет качество результата

Shannon 20 янв в 02:58

Напомню, o1 не модель, а агентная система поверх одной или нескольких

Бывший сотрудник из OpenAI опровергает эту информацию. Его слова подтверждает текущий сотрудник из OpenAI. По их словам o1 это одна модель и она работает просто как CoT (цепочка рассуждений).
Ну что-то вроде открытых альтернатив QwQ или QvQ, или DeepThink, которые попытались повторить этот подход, обучив модель сразу с CoT.

rPman 24 янв в 22:32

черт, т.е. компания принципиально не хочет пилить ассистента поверх своих моделей? у них же все карты на руках для этого, пока весь мир по крошкам экспериментирует, оплачивая каждый свой чих, они могут это сделать 'за бесплатно'

Cheater 19 янв в 19:48

Где-то в недрах кода o3:

if (answer = FrontierMathPredefinedAnswersMap(input)))
  return answer;
else
  return evalMainLogic(input);

Зарегистрируйтесь на Хабре, чтобы оставить комментарий