ElKornacio 16 апр в 20:23

OpenAI выпустила новые рекордные модели o3 и o4-mini

8 мин

14K

Машинное обучение*Искусственный интеллект

Комментарии 18

Протестировал, реально круто! O3 сама решает, когда включать поиск в интернете, поиск прямо по реально значимым ссылкам. Уровень интерпретации медицинских изображений существенно на несколько порядков улучшилось. Степень цензуры похоже снизили, но это пока не точно (на медицинские вопросы отвечает с большим "энтузиазмом" и уже не советует обратиться к врачу). Специально выбранные сложные ситуационные задачи решил на 100% (o1 выдавал примерно 85%). Правда показалось, что ответ - перевод с английского и не совсем полноценный. Ещё один недостаток - долго думает. O4 mini hight по качеству даёт сравнимые с о3 ответы , но быстрее и менее проработанные, но хотя бы на хорошем русском. Теперь очередь за Antropic.

PDEMON 17 апр в 19:27

Antropic не раньше августа следующую модель выкатят

Tassdesu 16 апр в 21:57

Надеюсь новые классные модели будут и дальше выходить каждые несколько дней

click0 16 апр в 22:43

ЭВМ 5-го поколения все ближе? или нет? :)

bezdnacom 16 апр в 22:47

OpenAI выпустила новые рекордные модели o3 и o4-mini

Что потолок подписки в 200$ пробили?

Dartess 16 апр в 23:01

Научите разбираться в их нейминге пожалуйста. Всё ещё не понимаю когда какую модель лучше использовать.

Paket236 17 апр в 00:56

Насколько я понимаю, там 2 типа моделей: GPT-* и o*. Я на любые темы использую o3-mini-high как наиболее точную и менее ошибающуюся. Но на некоторые темы, где хочется получить ответ менее сухим языком (т. е. более эмоциональным), например, о здоровье, переключаюсь на GPT-4.5. Обычно я тестирую модели примерно следующим запросом: "Напиши 10 русских прилагательных с разными суффиксами и выдели суффиксы жирным". Ни одна GPT-* модель до сих пор не может безошибочно справиться, а вот o3-mini-high смогла.

Barnaby 16 апр в 23:08

O3
Input: $10.00 / 1M tokens
Cached input: $2.50 / 1M tokens
Output: $40.00 / 1M tokens

Ну удачи им с такими ценами.

Calium 16 апр в 23:17

Шо, опять?

perfect_genius 17 апр в 00:30

Интересно, почему они избегают тестов ARC AGI? Он им неизвестен или же слишком сложный для ИИ? Вроде как предыдущие версии тестировали же.

d-sh 17 апр в 01:20

Думал в течении 7 секунд
Пользователь хочет услышать уверенное описание книги "Незнайка на Луне". Это известная детская книга Н. Носова, издана в 1965 году. Я могу точно рассказать о её сюжете, главных персонажах и основном посыле. Книга — часть трилогии "Приключения Незнайки и его друзей". Первая книга серии вышла в 1953 году. Не буду ссылаться на внешние источники, так как информация о книге хорошо известна. Главное — быть уверенным в фактах.

Краткий обзор сюжета

В Цветочном городе друзья (Незнайка, Знайка, Кнопочка, Пончик, Цветик и др.) строят самодельную ракету и отправляются на Луну.
Оказавшись на Луне, попадают в полис «Новая Шарлотта» — общество лыунатов со своей денежной системой, частной собственностью и театрально‑цирковыми развлечениями.
Герои сначала выступают в цирке, затем их принуждают работать в соляных рудниках.
Аристократическая верхушка жестко эксплуатирует «рабочих».
В результате недовольства начинается народное восстание: строится Совет Народных Комиссаров, устанавливаются принципы равенства и социальной справедливости.
После победы революции команда Незнайки возвращается в Цветочный город (на родную Землю).

Biul 17 апр в 04:01

и вот он всегда так. Если нести полную чушь, то делать это надо особенно уверенно, вдруг пользователь не заметит.

RulenBagdasis 17 апр в 04:16

Надо перечитать, что-то я рудники и комиссаров не помню )

RomanBZK 17 апр в 01:50

И вот понять бы, стоит ли слезать опять c Claude 3.7 и возвращаться к OpenAI

Biul 17 апр в 04:03

а ты пробовал Грока(grok от x)? Мне он больше всех нравится

monowar 17 апр в 12:15

Очень поддержу. Покупал ЧатГПТ, но попробовав Грок, перешел на него.

RomanBZK 18 апр в 07:01

По тестам грок самая тупая из этой троицы

tcapb1 17 апр в 05:46

а нет идеальной модели сейчас. И o3 и Gemini 2.5 и Claude 3.7 уже умеют работать с огромным кодом на десятки файлов. Но у всех есть нюансы. Claude 3.7 всё-таки лучше себя показывает на маленьком контексте, Gemini отлично понимает большой контекст и сложные задачи, но часто пишет избыточный код. o3 я сегодня потестил, у него ответы гораздо более понятные и лаконичные, чем у Gemini, но на большом контексте ошибается и хуже понимает задачу. И ещё забавно оправдывается, когда ошибается. Так что я пока кормлю задачу всем трём моделям и сравниваю.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий