Как стать автором
Обновить

Комментарии 18

Протестировал, реально круто! O3 сама решает, когда включать поиск в интернете, поиск прямо по реально значимым ссылкам. Уровень интерпретации медицинских изображений существенно на несколько порядков улучшилось. Степень цензуры похоже снизили, но это пока не точно (на медицинские вопросы отвечает с большим "энтузиазмом" и уже не советует обратиться к врачу). Специально выбранные сложные ситуационные задачи решил на 100% (o1 выдавал примерно 85%). Правда показалось, что ответ - перевод с английского и не совсем полноценный. Ещё один недостаток - долго думает. O4 mini hight по качеству даёт сравнимые с о3 ответы , но быстрее и менее проработанные, но хотя бы на хорошем русском. Теперь очередь за Antropic.

Antropic не раньше августа следующую модель выкатят

Надеюсь новые классные модели будут и дальше выходить каждые несколько дней

ЭВМ 5-го поколения все ближе? или нет? :)

OpenAI выпустила новые рекордные модели o3 и o4-mini

Что потолок подписки в 200$ пробили?

Научите разбираться в их нейминге пожалуйста. Всё ещё не понимаю когда какую модель лучше использовать.

Насколько я понимаю, там 2 типа моделей: GPT-* и o*. Я на любые темы использую o3-mini-high как наиболее точную и менее ошибающуюся. Но на некоторые темы, где хочется получить ответ менее сухим языком (т. е. более эмоциональным), например, о здоровье, переключаюсь на GPT-4.5. Обычно я тестирую модели примерно следующим запросом: "Напиши 10 русских прилагательных с разными суффиксами и выдели суффиксы жирным". Ни одна GPT-* модель до сих пор не может безошибочно справиться, а вот o3-mini-high смогла.

O3

Input: $10.00 / 1M tokens

Cached input: $2.50 / 1M tokens

Output: $40.00 / 1M tokens

Ну удачи им с такими ценами.

Шо, опять?

Интересно, почему они избегают тестов ARC AGI? Он им неизвестен или же слишком сложный для ИИ? Вроде как предыдущие версии тестировали же.

Думал в течении 7 секунд

Пользователь хочет услышать уверенное описание книги "Незнайка на Луне". Это известная детская книга Н. Носова, издана в 1965 году. Я могу точно рассказать о её сюжете, главных персонажах и основном посыле. Книга — часть трилогии "Приключения Незнайки и его друзей". Первая книга серии вышла в 1953 году. Не буду ссылаться на внешние источники, так как информация о книге хорошо известна. Главное — быть уверенным в фактах.

Краткий обзор сюжета

  1. В Цветочном городе друзья (Незнайка, Знайка, Кнопочка, Пончик, Цветик и др.) строят самодельную ракету и отправляются на Луну.

  2. Оказавшись на Луне, попадают в полис «Новая Шарлотта» — общество лыунатов со своей денежной системой, частной собственностью и театрально‑цирковыми развлечениями.

  3. Герои сначала выступают в цирке, затем их принуждают работать в соляных рудниках.

  4. Аристократическая верхушка жестко эксплуатирует «рабочих».

  5. В результате недовольства начинается народное восстание: строится Совет Народных Комиссаров, устанавливаются принципы равенства и социальной справедливости.

  6. После победы революции команда Незнайки возвращается в Цветочный город (на родную Землю).

и вот он всегда так. Если нести полную чушь, то делать это надо особенно уверенно, вдруг пользователь не заметит.

Надо перечитать, что-то я рудники и комиссаров не помню )

И вот понять бы, стоит ли слезать опять c Claude 3.7 и возвращаться к OpenAI

а ты пробовал Грока(grok от x)? Мне он больше всех нравится

Очень поддержу. Покупал ЧатГПТ, но попробовав Грок, перешел на него.

По тестам грок самая тупая из этой троицы

а нет идеальной модели сейчас. И o3 и Gemini 2.5 и Claude 3.7 уже умеют работать с огромным кодом на десятки файлов. Но у всех есть нюансы. Claude 3.7 всё-таки лучше себя показывает на маленьком контексте, Gemini отлично понимает большой контекст и сложные задачи, но часто пишет избыточный код. o3 я сегодня потестил, у него ответы гораздо более понятные и лаконичные, чем у Gemini, но на большом контексте ошибается и хуже понимает задачу. И ещё забавно оправдывается, когда ошибается. Так что я пока кормлю задачу всем трём моделям и сравниваю.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости