Комментарии 14
Они также заключили устное соглашение с OpenAI, запрещающее компании использовать материалы для обучения своих моделей — это мера предосторожности, чтобы предотвратить манипулирование бенчмарком и не допустить публичного распространения задач.
Джентельмены верят друг другу на слово.
Скорее «... ранее независимый математический бенчмарк... »
а есть более продвинутые модели кроме o1-o3?
Посмотрите китайскую Deep Seek
Она менее продвинутая. Но прогресс у китайцев стремительный.
это было бы отлично, если есть альтернативы, однозначно нужны ещё модели
прогресс ИИ за последнее время настолько качественный, что может имхо считаться изобретением современности, если остальные направления ИТ не проявляют качественный прогресс, то ИИ открывает новые возможности...
откровенно хочется уже иметь личного ИИ помощника в кодинге, чуть ли не голосом, так как гуглить уже надоело, куча мусора в инете... =)))
Напомню, o1 не модель, а агентная система поверх одной или нескольких не названных моделей (скорее файнтюна имеющихся).
Вы можете создать свою, вопрос поступает как часть промпта (заранее заданные в приложении) сразу в несколько запросов, ответы объединяются в контекст, который так же анализируется несколькими промптами типа:
какой информации тебе не хватает (вот этого в o1 не хватает, дверцы во внешние БД и интернет)
использование плагинов (калькулятор, компилятор с песочницей для проверки кода и т.п.)
а проверь ка ты вот эти выводы
лайфхаки типа 'глубоко вдохни' и 'подумай шаг за шагом' или 'а если подумать еще раз'
и окончательно спросить - 'так какой будет твой окончательный ответ'
вопрос можно 'обсасывать' долго, мало того, сам вопрос можно перефразировать, это так же меняет качество результата
Напомню, o1 не модель, а агентная система поверх одной или нескольких
Бывший сотрудник из OpenAI опровергает эту информацию. Его слова подтверждает текущий сотрудник из OpenAI. По их словам o1 это одна модель и она работает просто как CoT (цепочка рассуждений).
Ну что-то вроде открытых альтернатив QwQ или QvQ, или DeepThink, которые попытались повторить этот подход, обучив модель сразу с CoT.

Где-то в недрах кода o3:
if (answer = FrontierMathPredefinedAnswersMap(input)))
return answer;
else
return evalMainLogic(input);
OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3