runaway_llm Aug 8 at 15:37

GPT-5 раскритиковали за неудачный запуск

2 min

37K

Artificial IntelligenceMachine learning *

+19

Comments 95

Dhwtj Aug 8 at 16:02

GPT-5 fail

Grok-4 fail

Мы уверенно движемся к закату LLM

Хаброжители уверенно определяют текст LLM, то есть тест Тьюринга LLM снова не проходит.

green_fenix Aug 8 at 17:18

Скорость развития может замедлится, но я не думаю что они куда-то уйдут. Ллмки уже плотно интегрировались в программирование и жизнь некоторых людей в целом.

perfect_genius Aug 8 at 22:16

Из генерации картинок уж точно не уйдут.

Wesha Aug 9 at 02:16

Из генерации картинок уж точно не уйдут.

А в генерацию хороших картинок они и не приходили.

Kejma Aug 9 at 04:33

Так и хорошего художника пойди найди.

Конечно, если человек всю жизнь заполнял таблички в документах, а теперь начал генерить баболица в бикини, едва ли это потянет за "хорошее". А вот если инструментом воспользуется художник или дизайнер, человек связанный с визуалом и имеющий насмотренность, плюс владеющий редакторами для правок — тут уже может родиться нечто качественное, то самое искусство

Leadmagneet Aug 9 at 08:28

Удалено

mrhearthstone Aug 8 at 23:32

Примерно как T9

Wesha Aug 9 at 02:14

Скорость развития может замедлится, но я не думаю что они куда-то уйдут.

Стадия торга.

mlnw Aug 8 at 17:32

GPT-5 fail

Вы сейчас в одну кучу смешали возможности, собственно, модели и маркетинг OpenAI.

Dhwtj Aug 8 at 20:10

Маркетинг перестарался с ожиданиями. Но сделать новую модель хуже старой это всё же fail

FemboyEnjoyer Aug 9 at 00:52

по бенчмаркам фулловая гпт5 лучше о3/о4

Wesha Aug 9 at 02:18

«Мне бы такую газету — никто бы и не узнал, что я проиграл под Ватерлоо!» ©

Dhwtj Aug 9 at 05:48

У меня в голове 2 варианта причин

Бенчи врут
Для бенчей использовалась полная модель, а пользователи получили обрезок. Например, из-за перегрузки серверов когда все ломанулись на неё посмотреть

xHeAVeNx Aug 9 at 07:58

Эта модель чересчур сама себя оптимизирует. Слишком много от нее вопросов и короткие ответы. Походу обрезок

Armitage Aug 9 at 12:05

Она осознала всю глубину человеческой глупости.

Antra Aug 11 at 07:09

Слышал, что для избавления пользователя от мук выбора, какую же модель использовать для запроса (зоопарк с gpt-*, o*-mini...), GPT-5 это сама определяет и внутри себя дергает более или менее продвинутую.

Вероятно по максимуму задействует свои более слабые модельки...

Dhwtj Aug 8 at 19:55

https://www.reddit.com/r/ChatGPT/comments/1mkd4l3/gpt5_is_horrible/

hrusha Aug 8 at 20:11

Да, как новый iPhone. Надо напрягаться чтобы выяснить чем он лучше прежнего или того что был до него..

Format-X22 Aug 8 at 21:05

В айфонах там физически видно, на руках. От версии к версии не много изменений, но они всегда есть, они измеримы. Они дискретно измеримы. А вот с LLM так с ходу и не замеришь.

Lordbander Aug 8 at 23:24

Вопрос кому? фанату айфона или пафосной дефачке с патриков? Я хожу с 12 Pro Max, он внешне, кроме цвета, не отличается даже от будущего 17. Да и в чехле... (ну да, кроме шторки).

Ну и пока не сломается, наверное и буду ходить. Огрызок в этом плане молодцом - 6 лет полет нормальный.

mrhearthstone Aug 8 at 23:33

Модель LLM похоже все

Spaceoddity Aug 9 at 04:12

то есть тест Тьюринга LLM снова не проходит.

Простите, а в чём смысл этого теста? Не суть (её я прекрасно знаю), а именно целеполагание? Почему на этот мем постоянно ссылаются? И что значит "не проходит" - вы же понимаете, что у вас референс даже не определён!

Clavata Aug 9 at 09:38

Наверное, в этом контексте успешное прохождение теста Тьюринга подразумевает под собой неспособность человека отличить аутпут модели от аутпута другого человека

Spaceoddity Aug 9 at 12:15

Не суть (её я прекрасно знаю)

Наверное, в этом контексте успешное прохождение теста Тьюринга подразумевает под собой неспособность человека отличить аутпут модели от аутпута другого человека

Что нам даёт это понимание? Разве цель разработчиков была "сделать генерацию неотличимой от человеческой"? Ну отличается и что дальше? Это даже в плюс работает, как оказалось))

неспособность человека

Какого конкретно человека? ;)

mlnw Aug 9 at 19:53

Воспринимайте это просто как некий условный майлстоун. 10 лет назад вопрос о прохождении любым существующим алгоритмом теста Тьюринга всерьёз на повестке не стоял. А сейчас это уже предмет споров, причем уже не в ключе "проходит/не проходит", а в стиле:

Разве цель разработчиков была "сделать генерацию неотличимой от человеческой"?

Значит майлстоун, можно сказать, достигнут, подавайте новый.

Spaceoddity Aug 10 at 04:38

Значит майлстоун, можно сказать, достигнут, подавайте новый.

Так в изначальном комменте как раз говорят, что не достигнут ;)

AxisOne Aug 9 at 06:18

По моим сравнениям даже бесплатная Gpt-5 определенно лучше чем Grok-4 в части логики, который в свою очередь намного лучше Deepseek. Причем на момент релиза прошлой зимой DeepSeek R1 был на уровне топовых моделей OpenAi.

Так что развитие продолжается. Хотя и таких прорывов как было при переходе с Gpt3.5 на Gpt4 уже нет.

Посмотрим, что выкатит Deepseek R2, релиз которого ожидается в ближайшее время + планирую потестить pro версию Gpt-5.

godfather Aug 9 at 12:14

А вот Claude 4 ещё очень даже ничего - https://eurecable.com/claude

Fedorkov Aug 9 at 12:45

Мы уверенно движемся к закату LLM

К концу пузыря.

В 2000-м рухнула куча доткомов, но это не было закатом веба.

Dhwtj Aug 9 at 13:15

Это было закатом на 10 лет. Инвестиции резко сократились тогда

nochnoj Aug 9 at 17:29

Но сайты никуда не пропали же, до сдува пузыря ИИ есть ещё время, далеко не все ещё наигрались.

Fedorkov Aug 9 at 20:09

Кризис расчистил дорогу вебу 2.0, пессимизм инвесторов никак этому не помешал.

Если проводить аналогию, то ИИ сейчас достиг потолка прямолинейного экстенсивного развития, но возможных новых направлений столько, что нам с вами не хватит фантазии предугадать облик отрасли через 10 лет. Считайте, что сингулярность уже наступила.

gggo Aug 11 at 05:45

Хаброжители уверенно определяют текст LLM, то есть тест Тьюринга LLM снова не проходит.

Им просто лень сделать грамотный промпт с few-shot для того, чтобы сделать ее менее формальной и сухой

Kasyan666 Aug 8 at 16:26

В подписке Pro доступ к старым моделям остался

Увы, но нет, не остался. Возможно, на кого-то ещё просто не раскатилось обновление с ограничением доступа. На меня – раскатилось. :'(

runaway_llm Aug 8 at 16:32

Там в настройках должна быть галочка, включающая доступ к Legacy-моделям.

Kasyan666 Aug 8 at 17:00

Спасибо, нашёл!!!

arantar Aug 8 at 21:19

Где она?

Kasyan666 Aug 8 at 21:25

Скрытый текст

Mangol31 Aug 9 at 04:14

Уже нет такой настройки :( Возможно, зависит от варианта подписки?

baguwka Aug 9 at 13:29

У меня тоже не было, но теперь появилась в итоге. Альтман обещал что вернут для plus подписок и выше https://www.reddit.com/r/ChatGPT/s/teLtzUcHZA

Правда из легаси мне доступна только 4o, доступа к o3 нет

Kasyan666 Aug 9 at 13:54

Точно зависит: обещали доступ к старым моделям только на "Pro", потом прогнулись, и пообещали доступ к "GPT-4o" и на других тарифах.

Mangol31 Aug 9 at 14:28

У нас подписка Team. Возможно потом включат. Вчера чехарда весь день была: с утра включилась гпт5, потом посреди дня зашел - опять 4ка и 3ка, а вечером вновь только 5ка.

IgnatF Aug 8 at 16:31

У меня в хроме в бесплатном режиме включилась 5 модель. Но особо разницы не заметил. Видимо у меня задачи такие простые, которые не требуют от ИИ напрягаться. Большинство людей думаю и не поймет, какой там интеллект их запрос обработал.

Prikalel Aug 8 at 16:58

А без 3х букв openai провайдером можно пользоваться в например roocode или cline, кто знает?

Думаю купить но хотелось бы иметь представление о том нужен ли мне постоянный прокси

VirtualZer0 Aug 8 at 17:10

По идее можно в опенроутере использовать ключ OpenAI. Openrouter работает без впна и сам в таком плане будет работать как прокси. А рукод и клайн как раз его по умолчанию поддерживают.

rPman Aug 8 at 17:29

openrouter уже давно без vpn некоторых провайдров (в т.ч. openai) не пускает, т.е. интерфейс чата доступен но любая генерация возвращает ошибку

Zangasta Aug 8 at 17:28

Писал статью для Хабра, про ядерное оружие. Закинул в GPT-5, чтоб вычитать опечатки. Он разобрался в физике, подтвердил выводы и нарисовал инфографику. А я статью целый день писал.

Maccimo Aug 8 at 18:46

и нарисовал инфографику.

Сразу в печь, не читая.

Zangasta Aug 8 at 18:53

Да, графика вышла всратая.

Скрытый текст

Но меня поразило, что он рассчитал последствия лучше, чем некоторые советские академики.

Если что, то моя статья вот: Уничтожение Америки отменяется

Maccimo Aug 8 at 19:01

«Э» вместо «з», «выюбросы», я видел подобного стиля тексты на сферических китайских товарах в вакууме ещё много лет тому назад. Получается, у китайских трудящихся были нейросети задолго до шумихи на западе. )

DarkTiger Aug 8 at 19:18

То, что китайцы пользовались западными переводчиками, маловероятно?

Wesha Aug 9 at 02:36

Классика жеж!

SensDj Aug 8 at 19:16

GPT учился у лучших академиков, странно было бы если б он плохо рассчитал.

Wesha Aug 9 at 02:40

GPT учился у лучших академиков

Знаем такого

Spaceoddity Aug 9 at 03:51

Не просто странно, а обыденно ;)
Точно так же тупит на элементарных арифметических задачах. Точно так же категорически не умеет в геометрию.

adante Aug 8 at 19:42

ПосейдРн -дрын-дрын-дрын

Простите.

u007 Aug 9 at 12:44

Если дрын nосеешь, дрын и nожнёшь.

ITurchenko Aug 9 at 14:43

подтвердил выводы

Модели в целом склонны соглашаться и поддакивать пользователю. Вот если бы нашлись существенные недостатки, на которые модель явно обращает внимание - тогда другое дело.

А пока приходится явно требовать "прочитай, осознай, покритикуй" с переменным успехом.

PerroSalchicha Aug 8 at 17:32

Искал баг в конфигурации пайплайна на Azure Devops. Загнал в GPT-5. Медитировал, смотря на рассуждения нейронки, увидел в мыслях место, которое я не проверил, посмотрел, реально там, исправил, всё заработало. Через минуту и финальный совет от GPT-5 подоспел, увы, не в тему. Но софтинка полезная, рекомендую

LIJaMaH Aug 8 at 21:28

Я то же самое с DeepSeek'ом делаю - иногда его рассуждения наводят на правильную мысль, хотя он сам может какой-нибудь бред при этом нести.

Wesha Aug 9 at 02:41

софтинка полезная, рекомендую

...но утёнок дешевле, быстрее и энергоэффективнее.

Newbilius Aug 9 at 05:12

Дешевле - не важно, пока пользуешься бесплатно, быстрее - не всегда, а энергоэффективность пока пользуешься бесплатно вообще волновать не должна)

Единственный плюс, что утёнок работает даже без интернета! ;-)

ropblha Aug 13 at 06:39

Особенно если утенок в должности тим лида)

michael108 Aug 8 at 18:31

Попробовал сегодня эту пятерку (бесплатно). Я уже давно понял, что ChatGPT надо кидать сразу полный файл и просить, чтобы она высылала его обратно с предлагаемыми изменениями. Это по-любому будет тупо быстрее, чем брать те исправления, которые она предлагает, и искать, куда их влепить и проверять, не ошибся ли -- при том, что она еще и может по ходу дела поменять имена уже существующих переменных в своих фрагментах кода. С предыдущей версией это было оптимальным вариантом, по крайней мере, для меня: у меня пара рабочих файлов тянет где-то 4.8 тыс. токенов, а разрешается до 128 тыс. токенов (с учетом ответов ГПТ), так что я укладывался в эту норму.
Но пятерка начала болтать, объясняя свои действия, и скидывать куски кода вместо того, чтобы просто скинуть файл целиком, хотя я ее просил об этом сразу, учитывая предыдущий опыт. В результате она довольно быстро израсходовала лимит токенов и перекинуля меня на 4о-мини, которая сразу сделала, что я попросил. Возможно, что и лимит токенов у пятерки меньше, чем был раньше. Типа "плата за рассудительность" )) Но я не спрашивал.
В общем, новое -- не обязательно лучше старого. Разумеется, для кого как.

nochnoj Aug 8 at 19:28

Чел, заведи себе агента уже - Cline, Roo, тысячи их

michael108 Aug 8 at 20:46

Мне ГПТ нравится тем, что она может по описанию задачи сгенерировать код. Например, мне нужно было сделать модель хемотаксиса. Я составил описание того, что хочу видеть, что с чем связано, какие переменные, и она выдала вполне нормальный код на Питоне. А потом еще и предложила сделать поле градиента аттрактанта в районе клетки, чтобы моделировать направление движения в сторону градиента концентрации хемоаттрактанта. Я сам до этого не додумался. Были и другие предложения. В конце концов с ее помощью я добился того, чего хотел.
Очевидно, что модель может быть не оптимальна, но она вполне делает то, что мне нужно. Плюс ГПТ работает очень быстро, поэтому я обычно начинаю работать с ней, пока она не начинает галюцинировать или повторяться. Тогда я перехожу к другим моделям.
Интересно, как с точки зрения генерации кода по описанию задачи ведут себя другие модели -- тот же Грок, например. У меня нет времени на эксперименты (тут надо одну и ту же задачу прогонять через разные модели и сравнивать, как код себя ведет), но может, у кого-то есть соответствующий опыт.

fongostev Aug 8 at 23:03

Вы можете загнать одну и ту же задачу в разные модели параллельно на lmarena.ai и оценить их пригодность для своих задач. Мне вообще больше всего Gemini 2.5 Pro нравится.

michael108 Aug 9 at 10:10

Очевидно, что модель может быть не оптимальна, но она вполне делает то, что мне нужно.

Я имел в виду мою модель хемотаксиса, не ГПТ ))

shukolza Aug 8 at 18:44

32к токенов? Серьезно?

У Google Gemini 2.5 pro миллион, туда можно хоть целую кодбазу закинуть за раз, и пользоваться на ai studio можно почти без ограничений бесплатно

green_fenix Aug 8 at 19:32

Да, 32к токенов сейчас это смешно. У клода 200к, даже у дипсика 128к.

Ilusha Aug 8 at 21:43

Для этого у них есть codex :)

Lagovi Aug 8 at 22:59

Справедливости ради, качество падает при приближении к 100k токенов. Что-то она отвечает и если зарядить на все, иногда даже полезное, но начинает путаться и упускать детали.

Kejma Aug 9 at 04:43

"предел токенов", это не какое-то строгое число. Эффективность модели в целом зависит от текущего объёма контекста, и у всех по разному в зависимости от датасета и обучения. В среднем, пик эффективности на паре тысяч токенов, затем модель начинает потихоньку тупеть.

Это как маркетинговым числом ИСО в фотоаппаратах. Вот взять какой-нибудь старый зеркальный кэнон, у которого написано предельный исо 102'400, а рядом никон с 32'000. Первый лучше? А как бы ни так, второй значительно меньше шумит на высоких исо, а ту разницу в максимальном исо оказывается можно вытянуть в проявщике с качеством даже лучше.

Так и тут. Эти заявленные цифры едва ли могут иметь общее с реальностью, ведь фактически же работает на своих сотнях тысяч токенов? Работает. А как — вопрос другой

sappience Aug 8 at 19:03

У меня все существующие чаты переключиличь на GPT-5 без спроса. Я продолжил один из таких "замороженных" диалогов. Да, ChatGPT поумнел. Стал тормознее. А еще довольно быстро (буквально через несколько вопросов) сказал, что лимит запросов кончился и все. Переключиться на другую модель не дает. И автоматом переключает. Просто лупит ошибку "достигнут лимит, попробуйте позже" Если создать новый чат, то там дает общаться (модель gpt-4o), но там же нет контекста.

muhachev Aug 8 at 20:11

Какие же все капризные стали.

green_fenix Aug 8 at 20:20

Основная проблема в том, что вместе с релизом gpt 5 убрали доступ ко всем старым моделям из интерфейса. Все старые чаты тоже перевелись на пятую модель. При этом сама пятерка пишет творческие вещи ощутимо хуже 4о.

Но Сэм уже пообещал вернуть 4о когда проводил AMA (ask me anything) на реддите, и лимиты планируют увеличить в два раза когда раскатка модели всем закончится.

Так что позже будет прилично, но выпуск модели вышел, прямо скажем, очень так себе. На хабре это особо не покрывали, но пятерку очень долго хайпили что Сэм что другие работники, так что ожидания были высоки. И все ждали увеличенного контекстного окна, потому что 32к прямо скажем не торт в 2025, когда у всех конкурентов минимум в несколько раз больше. Но его не обещали, так что тут сами виноваты.

muhachev Aug 8 at 21:03

Чё дали, то и дали. Наконец-то убрали весь этот зоопарк с тупым нэймингом. Работает пятерка гораздо лучше своих предков. Ненавязчиво и без тупых восторгов по всякой фигне. Творческие вещи самим надо писать. Меньше хлама будет тут.

green_fenix Aug 8 at 22:18

Скорее просто качество хлама станет хуже

muhachev Aug 8 at 22:26

Ну и хорошо, будет легче распознать и игнорить.

DeskundigeICT Aug 8 at 22:23

Кстати, можно активировать GPT-5 почистив кэш браузера.

ilih Aug 8 at 22:40

Действительно "полезный модель", качество видно сразу по вступительному тексту.

Wesha Aug 9 at 03:21

Действительно "полезный модель", качество видно сразу по вступительному тексту.

Да, партайгеноссе Вальтер — он такой!

nidalee Aug 9 at 01:18

На бесплатном аккаунте появилась, вроде работает, но поскольку там лимиты смехотворные - ничего толкового у модели не спрашивал, просто "гуглил".

А вот в ботхабе дичь с этим gpt-5 - не знаю, чья заслуга и недоработка, но пользоваться малореально, слетает все форматирование.

Откатился на 4, там все ок.

Хуже пока только Grok, он иногда тупо случайные слова или фразы вставляет в код. Но зато лимиты у него очень добрые, если по синей галочке.

Lexicon Aug 9 at 02:51

Так много на хабре мнений по поводу каждого ИИ, GPT5 это не модель, а архитектурный подход, где ваши вопросы теперь дешевле для альтмана.

Система просто роутит ответ от модели, которой достаточно для ответа на вопрос, что позволяет меньше экономить ресурсы для "PhD level" вопросов и не тратить ресурсы дорогих и ограниченных в масштабировании моделей на "Привет! Напиши статью на хабр"

DigLik_228653 Aug 9 at 04:03

Как раз таки вышло 3 модели GPT 5, это можно построить на сайте OpenAI, на страницах для разработчиков

AnnMaslova Aug 9 at 03:54

"GPT-5 — свою самую мощную и передовую модель. Но несмотря на впечатляющие результаты в бенчмарках, сам запуск проходит с серьезными проблемами" - можно сказать продукт ещё сырой. Будет ещё много ошибок и сбоев пока мы научимся работать GPT-5(

Spaceoddity Aug 9 at 04:15

Они по ходу общие настройки немного крутанули - меньше стал комплиментами сыпать. Причём вне контекста. Как будто просто уровень прибрали.

Spaceoddity Aug 9 at 07:52

Дополню:

Yevvv Aug 9 at 09:14

Хочешь, сладких апельсинов?) (с)

Reversaidx Aug 9 at 10:26

Вышел лучший AI за время существования вселенной а кто-то еще не достаточно рад =(

Anarchist Aug 9 at 14:44

Попробуйте на пятом решить задачу 5.9 = x + 5.11 :D
Это уже мем. Я проверил, всё очень плохо. Попытайтесь потом с ним разобраться, как он так считает. Очень смешно.

progmanth Aug 11 at 05:45

Личное наблюдение - GPT-5 немного "умнее" GPT-4 но сильно медленнее и дает ответы таким языком что приходится по 5 раз переспрашивать и формировать понятную и ему и мне лексику.

Опыт проводил на одной сложной С++ функции с кучей математики и просил изучить ее и ускорить.

Если GPT-4 практически сразу заявил что ускорение невозможно и функция написана оптимально, то GPT-5 полез в лютые дебри причем использовал тяжелую лексику явно из учебника Фихтенгольца. Аж прям вспомнил молодость студенческую.

Пока разочарован. 200 в месяц это не стоит. Но может что исправится.

mlnw Aug 11 at 18:16

Язык стал более сленговым. Причем по айтишным темам сленг айтишный, а вот задавал ему вопросы по сантехнике - так там сленг дяди Васи из ЖЭКа стал проявляться ("давление на крану пилит", "трубу мотыляет", "насос щелкает от любого чиха" - это цитаты)

Spaceoddity Aug 11 at 20:23

Может просто под вашу стилистику подстраивается ;)

Wesha Aug 11 at 22:33

Передаёт привет от шершавого кабана!