Pull to refresh

Comments 18

Протестировал, реально круто! O3 сама решает, когда включать поиск в интернете, поиск прямо по реально значимым ссылкам. Уровень интерпретации медицинских изображений существенно на несколько порядков улучшилось. Степень цензуры похоже снизили, но это пока не точно (на медицинские вопросы отвечает с большим "энтузиазмом" и уже не советует обратиться к врачу). Специально выбранные сложные ситуационные задачи решил на 100% (o1 выдавал примерно 85%). Правда показалось, что ответ - перевод с английского и не совсем полноценный. Ещё один недостаток - долго думает. O4 mini hight по качеству даёт сравнимые с о3 ответы , но быстрее и менее проработанные, но хотя бы на хорошем русском. Теперь очередь за Antropic.

Antropic не раньше августа следующую модель выкатят

Надеюсь новые классные модели будут и дальше выходить каждые несколько дней

ЭВМ 5-го поколения все ближе? или нет? :)

OpenAI выпустила новые рекордные модели o3 и o4-mini

Что потолок подписки в 200$ пробили?

Научите разбираться в их нейминге пожалуйста. Всё ещё не понимаю когда какую модель лучше использовать.

Насколько я понимаю, там 2 типа моделей: GPT-* и o*. Я на любые темы использую o3-mini-high как наиболее точную и менее ошибающуюся. Но на некоторые темы, где хочется получить ответ менее сухим языком (т. е. более эмоциональным), например, о здоровье, переключаюсь на GPT-4.5. Обычно я тестирую модели примерно следующим запросом: "Напиши 10 русских прилагательных с разными суффиксами и выдели суффиксы жирным". Ни одна GPT-* модель до сих пор не может безошибочно справиться, а вот o3-mini-high смогла.

O3

Input: $10.00 / 1M tokens

Cached input: $2.50 / 1M tokens

Output: $40.00 / 1M tokens

Ну удачи им с такими ценами.

Интересно, почему они избегают тестов ARC AGI? Он им неизвестен или же слишком сложный для ИИ? Вроде как предыдущие версии тестировали же.

UFO landed and left these words here

и вот он всегда так. Если нести полную чушь, то делать это надо особенно уверенно, вдруг пользователь не заметит.

Надо перечитать, что-то я рудники и комиссаров не помню )

И вот понять бы, стоит ли слезать опять c Claude 3.7 и возвращаться к OpenAI

а ты пробовал Грока(grok от x)? Мне он больше всех нравится

Очень поддержу. Покупал ЧатГПТ, но попробовав Грок, перешел на него.

По тестам грок самая тупая из этой троицы

а нет идеальной модели сейчас. И o3 и Gemini 2.5 и Claude 3.7 уже умеют работать с огромным кодом на десятки файлов. Но у всех есть нюансы. Claude 3.7 всё-таки лучше себя показывает на маленьком контексте, Gemini отлично понимает большой контекст и сложные задачи, но часто пишет избыточный код. o3 я сегодня потестил, у него ответы гораздо более понятные и лаконичные, чем у Gemini, но на большом контексте ошибается и хуже понимает задачу. И ещё забавно оправдывается, когда ошибается. Так что я пока кормлю задачу всем трём моделям и сравниваю.

Sign up to leave a comment.

Other news