Комментарии 18
Протестировал, реально круто! O3 сама решает, когда включать поиск в интернете, поиск прямо по реально значимым ссылкам. Уровень интерпретации медицинских изображений существенно на несколько порядков улучшилось. Степень цензуры похоже снизили, но это пока не точно (на медицинские вопросы отвечает с большим "энтузиазмом" и уже не советует обратиться к врачу). Специально выбранные сложные ситуационные задачи решил на 100% (o1 выдавал примерно 85%). Правда показалось, что ответ - перевод с английского и не совсем полноценный. Ещё один недостаток - долго думает. O4 mini hight по качеству даёт сравнимые с о3 ответы , но быстрее и менее проработанные, но хотя бы на хорошем русском. Теперь очередь за Antropic.
Надеюсь новые классные модели будут и дальше выходить каждые несколько дней
ЭВМ 5-го поколения все ближе? или нет? :)
OpenAI выпустила новые рекордные модели o3 и o4-mini
Что потолок подписки в 200$ пробили?
Научите разбираться в их нейминге пожалуйста. Всё ещё не понимаю когда какую модель лучше использовать.
Насколько я понимаю, там 2 типа моделей: GPT-* и o*. Я на любые темы использую o3-mini-high как наиболее точную и менее ошибающуюся. Но на некоторые темы, где хочется получить ответ менее сухим языком (т. е. более эмоциональным), например, о здоровье, переключаюсь на GPT-4.5. Обычно я тестирую модели примерно следующим запросом: "Напиши 10 русских прилагательных с разными суффиксами и выдели суффиксы жирным". Ни одна GPT-* модель до сих пор не может безошибочно справиться, а вот o3-mini-high смогла.
O3
Input: $10.00 / 1M tokens
Cached input: $2.50 / 1M tokens
Output: $40.00 / 1M tokens
Ну удачи им с такими ценами.
Шо, опять?
Интересно, почему они избегают тестов ARC AGI? Он им неизвестен или же слишком сложный для ИИ? Вроде как предыдущие версии тестировали же.
Думал в течении 7 секунд
Пользователь хочет услышать уверенное описание книги "Незнайка на Луне". Это известная детская книга Н. Носова, издана в 1965 году. Я могу точно рассказать о её сюжете, главных персонажах и основном посыле. Книга — часть трилогии "Приключения Незнайки и его друзей". Первая книга серии вышла в 1953 году. Не буду ссылаться на внешние источники, так как информация о книге хорошо известна. Главное — быть уверенным в фактах.
Краткий обзор сюжета
В Цветочном городе друзья (Незнайка, Знайка, Кнопочка, Пончик, Цветик и др.) строят самодельную ракету и отправляются на Луну.
Оказавшись на Луне, попадают в полис «Новая Шарлотта» — общество лыунатов со своей денежной системой, частной собственностью и театрально‑цирковыми развлечениями.
Герои сначала выступают в цирке, затем их принуждают работать в соляных рудниках.
Аристократическая верхушка жестко эксплуатирует «рабочих».
В результате недовольства начинается народное восстание: строится Совет Народных Комиссаров, устанавливаются принципы равенства и социальной справедливости.
После победы революции команда Незнайки возвращается в Цветочный город (на родную Землю).
И вот понять бы, стоит ли слезать опять c Claude 3.7 и возвращаться к OpenAI
а ты пробовал Грока(grok от x)? Мне он больше всех нравится
а нет идеальной модели сейчас. И o3 и Gemini 2.5 и Claude 3.7 уже умеют работать с огромным кодом на десятки файлов. Но у всех есть нюансы. Claude 3.7 всё-таки лучше себя показывает на маленьком контексте, Gemini отлично понимает большой контекст и сложные задачи, но часто пишет избыточный код. o3 я сегодня потестил, у него ответы гораздо более понятные и лаконичные, чем у Gemini, но на большом контексте ошибается и хуже понимает задачу. И ещё забавно оправдывается, когда ошибается. Так что я пока кормлю задачу всем трём моделям и сравниваю.
OpenAI выпустила новые рекордные модели o3 и o4-mini