ElKornacio Apr 16 2025 at 17:23

OpenAI выпустила новые рекордные модели o3 и o4-mini

8 min

25K

Machine learning * Artificial Intelligence

Comments 18

eeglab Apr 16 2025 at 18:50

Протестировал, реально круто! O3 сама решает, когда включать поиск в интернете, поиск прямо по реально значимым ссылкам. Уровень интерпретации медицинских изображений существенно на несколько порядков улучшилось. Степень цензуры похоже снизили, но это пока не точно (на медицинские вопросы отвечает с большим "энтузиазмом" и уже не советует обратиться к врачу). Специально выбранные сложные ситуационные задачи решил на 100% (o1 выдавал примерно 85%). Правда показалось, что ответ - перевод с английского и не совсем полноценный. Ещё один недостаток - долго думает. O4 mini hight по качеству даёт сравнимые с о3 ответы , но быстрее и менее проработанные, но хотя бы на хорошем русском. Теперь очередь за Antropic.

PDEMON Apr 17 2025 at 16:27

Antropic не раньше августа следующую модель выкатят

Tassdesu Apr 16 2025 at 18:57

Надеюсь новые классные модели будут и дальше выходить каждые несколько дней

click0 Apr 16 2025 at 19:43

ЭВМ 5-го поколения все ближе? или нет? :)

bezdnacom Apr 16 2025 at 19:47

OpenAI выпустила новые рекордные модели o3 и o4-mini

Что потолок подписки в 200$ пробили?

Dartess Apr 16 2025 at 20:01

Научите разбираться в их нейминге пожалуйста. Всё ещё не понимаю когда какую модель лучше использовать.

Paket236 Apr 16 2025 at 21:56

Насколько я понимаю, там 2 типа моделей: GPT-* и o*. Я на любые темы использую o3-mini-high как наиболее точную и менее ошибающуюся. Но на некоторые темы, где хочется получить ответ менее сухим языком (т. е. более эмоциональным), например, о здоровье, переключаюсь на GPT-4.5. Обычно я тестирую модели примерно следующим запросом: "Напиши 10 русских прилагательных с разными суффиксами и выдели суффиксы жирным". Ни одна GPT-* модель до сих пор не может безошибочно справиться, а вот o3-mini-high смогла.

Barnaby Apr 16 2025 at 20:08

O3
Input: $10.00 / 1M tokens
Cached input: $2.50 / 1M tokens
Output: $40.00 / 1M tokens

Ну удачи им с такими ценами.

Calium Apr 16 2025 at 20:17

Шо, опять?

Belarus Apr 16 2025 at 21:30

Интересно, почему они избегают тестов ARC AGI? Он им неизвестен или же слишком сложный для ИИ? Вроде как предыдущие версии тестировали же.

UFO landed and left these words here

Biul Apr 17 2025 at 01:01

и вот он всегда так. Если нести полную чушь, то делать это надо особенно уверенно, вдруг пользователь не заметит.

RulenBagdasis Apr 17 2025 at 01:16

Надо перечитать, что-то я рудники и комиссаров не помню )

RomanBZK Apr 16 2025 at 22:50

И вот понять бы, стоит ли слезать опять c Claude 3.7 и возвращаться к OpenAI

Biul Apr 17 2025 at 01:03

а ты пробовал Грока(grok от x)? Мне он больше всех нравится

monowar Apr 17 2025 at 09:15

Очень поддержу. Покупал ЧатГПТ, но попробовав Грок, перешел на него.

RomanBZK Apr 18 2025 at 04:01

По тестам грок самая тупая из этой троицы

tcapb1 Apr 17 2025 at 02:46

а нет идеальной модели сейчас. И o3 и Gemini 2.5 и Claude 3.7 уже умеют работать с огромным кодом на десятки файлов. Но у всех есть нюансы. Claude 3.7 всё-таки лучше себя показывает на маленьком контексте, Gemini отлично понимает большой контекст и сложные задачи, но часто пишет избыточный код. o3 я сегодня потестил, у него ответы гораздо более понятные и лаконичные, чем у Gemini, но на большом контексте ошибается и хуже понимает задачу. И ещё забавно оправдывается, когда ошибается. Так что я пока кормлю задачу всем трём моделям и сравниваю.