Comments 17
А может причина просто в том, что модели затачивают под бенчмарки, в которых они показывают хороший прирост, в то время как реальный пользовательский опыт бенчмарки не отражают.
А как это по вашему работает? Какие то выборки берут, а какие то нет?
Чекни книгу грокаем машинное обучение, там подобный разбор на 300+ страниц о проблемах моделей машинного обучения, для нейронок упрощая всё тоже самое.
Что именно работает - затачивание под бенчмарки? Ну методов много, вот например: https://www.searchenginejournal.com/openai-secretly-funded-frontiermath-benchmarking-dataset/537760/
Или то, что бенчмарки не отражают реальный пользовательский опыт всё-таки? Ну тот все очевидно, бенчмарки и правда очень маленькая выборка от всех use cases.
Устраивается секретарша на работу, директор спрашивает:
- Какая у вас скорость печати?
- 1000 знаков в минуту!
- Так много???
- Правда такая ерунда получается...
А вы можете обозначить конкретные проблемы? По моему опыту, например, модель 5 серьезно лучше, чем o3 в рассуждениях, фактах, аналитике, лаконичности. Серьезно лучше стала в программировании и генерации изображений (стала ближе к 4o).
В качестве минуса срок отметить ухудшение в работе с русским текстом - ошибки в формах слов и несуществующие слова. Но это не доставляет сильных проблем, вроде. Раз раньше работало хорошо, то это вопрос доработки всего лишь.
Скорее всего. А как вообще работает бенчмарк, если там статичный набор заданий, то можно обучить отвечать на эти вопросы и будет большой прирост, хоть 100% правильных. Видел в видосе как grok, проходит вопросы из бенчмарка - просто нашел ответ на сайте.
Практически перестал использовать ChatGPT, так как он стал сильно тупее. Что в разработке, что в рассуждениях. Qwen, Gemini дают более качественный результат. Deepseek любит придумывать, если не знает. Qwen меньше, но тоже грешит этим порой. Поэтому используешь сетки, только когда сам знаешь ответ и рассчитываешь сократить черновую работу. При такой постановке задачи от ответов ChatGPT ждёшь правильных предсказаний кода или ответов. Как по мне, качество моделей openai сильно упало. Может на бенчмарки они натаскали хорошо, но в обычных задачах просели (хотя и раньше было далеко не идеально).
Если на сложных задачах тестить, то o3 лучше Gemini 2.5 Pro, а GPT-5 Thinking по ощущениям не хуже o3. Проверяется легко - берешь нетривиальную задачу, делаешь решение за несколько шотов на какой-нить модели, потом скармливаешь его обоим на ревью - обе пишут, что надо исправить/улучшить - потом перекрестно скармливаешь опять обоим типа "а ты уверен, что надо так, а не вот так?". Gemini через несколько ходов обсуждения сдается, соглашаясь с аргументами o3 и отказываясь от своих - и так на всех задачах у меня
o3 обходит Gemini 2.5 Pro? А можешь пример задачи кинуть, где Gemini сдался? И o3 выиграл спор. Что за "несколько шотов"? Это типа промпт-компиляция-тест = "1 шот"?
Шот - это один вопрос-ответ. Чтобы финальную версию сделать решения иногда и 10-20 можно сделать.
Ну по задаче как тут в двух словах объяснить?) Надо было в целом оптимизировать легаси java код где крупные структуры аля 500мб надо сериализовать + сжать и разбив на куски хранить удаленно - потом обратно скачать, склеить, декомпрессировать, десериализовать и там был ад по перформансу. В итоге использовался стек Kryo + compressors(gzip, snappy, lz4) и Gemini 2.5 Pro пытался пропихнуть идею, что можно выкинуть низкоуровневые куски - типа не создавать стримы, а как-то kryo + compressor упростить - в итоге нельзя он признал. Еще "нашел" узкое горло на разрезке, но там тоже признал что его нет, неправильно понял контекст. Еще к конфигу kryo цеплялся по двум пунктам, что надо явно прописать все классы (объекты генерируемые) + криво с дефолтными сериализаторами чет напутал. Короч из 5 пунктов одно минорное улучшение только подсказал, а по 4-м обслся и отписал в выводе:
"Вывод
Ваш исходный код был гораздо лучше адаптирован к реальным условиям вашего проекта, чем моя первая "оптимизированная" версия."
А по моим ощущениям напротив Gemini Pro (с подпиской) немного лучше даёт результат o3 (с подпиской). А недавнее обновление работы с изображениями в Gemini на много лучше такого же в ChatGPT.
Но все эти ощущения и споры сейчас скорее дело привычки 🤷 по факту оба решения хорошие и могут быть неплохими ассистентами.
Но я не давал какие-то сравнительные одинаковые задачи. Просто использовал оба решения в повседневной жизни и это просто какие-то личные наблюдения не претендующие на достоверность 🙃 в целом ии уже почти три года очень активно каждый день использую...
Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".
У меня было несколько попыток таких экспериментов, довольно забавно.
И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят
Кто-то может объяснить фразы типа
"модель думала N секунд"
(из статьи) "задач, которые занимают около 9 секунд"
(из статьи) "для GPT-4 этот показатель увеличился до 5,36 минут (прирост в 36 раз), а для GPT-5 достиг 137 минут. "
Везде пишут про пресловутые "секунды". Что за секунды? Чисто время "думания"? Или время от запроса до вывода на экран (вместе с решением, или чисто фазы "думания")? Так это завист от кучи факторов -- типа модели gpu, размера модели, структуры модели (MoE vs dense), количества токенов, выделенных на размышление, наконец, скрость интернет-соединения. Например, модели gpt4 и 5 (кстати, не указано, какие именно модели): скорость ответа модели gpt-5-nano выше в несколько раз по сравнению с gpt-5 -- благодаря меньшему размеру (кстати, а ведь точные размеры тоже неизвестны). Далее, скорость зависит от оборудования -- а есть ли гарантия, что инстансы gpt-4 и gpt-5 запущены на одних и тех же моделях gpu? Особенно если этих gpu сотни тысяч?
Получается, что ответ приводится в каких-то эфемерных "секундах", которые зависят от кучи факторов и фактически не говорят ни о чем. Почему нигде не приводятся результаты в токенах? Например, вот, модель такая-то, "думала" в среднем 10к токенов, достигла точности в 90%.
Я конечно всё понимаю, но... Первая же ссылка в Гугле:
https://habr.com/ru/articles/936522/
... команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%.
Речь о времени, которое тратит квалифицированный человек-специалист. Я дополнил текст новости, спасибо!
да это как у $%$^$ менеджеров - на вопрос "сколько займет поиск?" - встречный вопрос задаешь "на каком железе?" и они зависают... Не понимают какая же связь между скоростью поиска и характеристиками железа, магия однако.
Для performance теста выделяют виртуалку с плавающим CPU (а не фиксированным, чтоб типа всех не тормозить) на общем сервере (компании) с плавающей нагрузкой и просят какие то метрики получить в процессе теста - когда производительность скачет, мягко говоря, раз в 10, а то и 20.
Иногда впечатление что с умственно отсталыми общаешься. И что самое обидное, могут уволить тебя когда облажаются они.
GPT-5 сделала большой скачок, но его почти не заметили. В Epoch AI пояснили, почему