Комментарии 18
Протестировал, реально круто! O3 сама решает, когда включать поиск в интернете, поиск прямо по реально значимым ссылкам. Уровень интерпретации медицинских изображений существенно на несколько порядков улучшилось. Степень цензуры похоже снизили, но это пока не точно (на медицинские вопросы отвечает с большим "энтузиазмом" и уже не советует обратиться к врачу). Специально выбранные сложные ситуационные задачи решил на 100% (o1 выдавал примерно 85%). Правда показалось, что ответ - перевод с английского и не совсем полноценный. Ещё один недостаток - долго думает. O4 mini hight по качеству даёт сравнимые с о3 ответы , но быстрее и менее проработанные, но хотя бы на хорошем русском. Теперь очередь за Antropic.
Надеюсь новые классные модели будут и дальше выходить каждые несколько дней
ЭВМ 5-го поколения все ближе? или нет? :)
OpenAI выпустила новые рекордные модели o3 и o4-mini
Что потолок подписки в 200$ пробили?
Научите разбираться в их нейминге пожалуйста. Всё ещё не понимаю когда какую модель лучше использовать.
Насколько я понимаю, там 2 типа моделей: GPT-* и o*. Я на любые темы использую o3-mini-high как наиболее точную и менее ошибающуюся. Но на некоторые темы, где хочется получить ответ менее сухим языком (т. е. более эмоциональным), например, о здоровье, переключаюсь на GPT-4.5. Обычно я тестирую модели примерно следующим запросом: "Напиши 10 русских прилагательных с разными суффиксами и выдели суффиксы жирным". Ни одна GPT-* модель до сих пор не может безошибочно справиться, а вот o3-mini-high смогла.
O3
Input: $10.00 / 1M tokens
Cached input: $2.50 / 1M tokens
Output: $40.00 / 1M tokens
Ну удачи им с такими ценами.
Шо, опять?
Интересно, почему они избегают тестов ARC AGI? Он им неизвестен или же слишком сложный для ИИ? Вроде как предыдущие версии тестировали же.
И вот понять бы, стоит ли слезать опять c Claude 3.7 и возвращаться к OpenAI
а ты пробовал Грока(grok от x)? Мне он больше всех нравится
а нет идеальной модели сейчас. И o3 и Gemini 2.5 и Claude 3.7 уже умеют работать с огромным кодом на десятки файлов. Но у всех есть нюансы. Claude 3.7 всё-таки лучше себя показывает на маленьком контексте, Gemini отлично понимает большой контекст и сложные задачи, но часто пишет избыточный код. o3 я сегодня потестил, у него ответы гораздо более понятные и лаконичные, чем у Gemini, но на большом контексте ошибается и хуже понимает задачу. И ещё забавно оправдывается, когда ошибается. Так что я пока кормлю задачу всем трём моделям и сравниваю.
OpenAI выпустила новые рекордные модели o3 и o4-mini