Search
Write a publication
Pull to refresh

Comments 95

GPT-5 fail

Grok-4 fail

Мы уверенно движемся к закату LLM

Хаброжители уверенно определяют текст LLM, то есть тест Тьюринга LLM снова не проходит.

Скорость развития может замедлится, но я не думаю что они куда-то уйдут. Ллмки уже плотно интегрировались в программирование и жизнь некоторых людей в целом.

Из генерации картинок уж точно не уйдут.

Из генерации картинок уж точно не уйдут.

А в генерацию хороших картинок они и не приходили.

Так и хорошего художника пойди найди.

Конечно, если человек всю жизнь заполнял таблички в документах, а теперь начал генерить баболица в бикини, едва ли это потянет за "хорошее". А вот если инструментом воспользуется художник или дизайнер, человек связанный с визуалом и имеющий насмотренность, плюс владеющий редакторами для правок — тут уже может родиться нечто качественное, то самое искусство

Скорость развития может замедлится, но я не думаю что они куда-то уйдут.

Стадия торга.

GPT-5 fail

Вы сейчас в одну кучу смешали возможности, собственно, модели и маркетинг OpenAI.

Маркетинг перестарался с ожиданиями. Но сделать новую модель хуже старой это всё же fail

по бенчмаркам фулловая гпт5 лучше о3/о4

«Мне бы такую газету — никто бы и не узнал, что я проиграл под Ватерлоо!» ©

У меня в голове 2 варианта причин

  1. Бенчи врут

  2. Для бенчей использовалась полная модель, а пользователи получили обрезок. Например, из-за перегрузки серверов когда все ломанулись на неё посмотреть

Эта модель чересчур сама себя оптимизирует. Слишком много от нее вопросов и короткие ответы. Походу обрезок

Она осознала всю глубину человеческой глупости.

Слышал, что для избавления пользователя от мук выбора, какую же модель использовать для запроса (зоопарк с gpt-*, o*-mini...), GPT-5 это сама определяет и внутри себя дергает более или менее продвинутую.

Вероятно по максимуму задействует свои более слабые модельки...

https://www.reddit.com/r/ChatGPT/comments/1mkd4l3/gpt5_is_horrible/

Да, как новый iPhone. Надо напрягаться чтобы выяснить чем он лучше прежнего или того что был до него..

В айфонах там физически видно, на руках. От версии к версии не много изменений, но они всегда есть, они измеримы. Они дискретно измеримы. А вот с LLM так с ходу и не замеришь.

Вопрос кому? фанату айфона или пафосной дефачке с патриков? Я хожу с 12 Pro Max, он внешне, кроме цвета, не отличается даже от будущего 17. Да и в чехле... (ну да, кроме шторки).

Ну и пока не сломается, наверное и буду ходить. Огрызок в этом плане молодцом - 6 лет полет нормальный.

то есть тест Тьюринга LLM снова не проходит.

Простите, а в чём смысл этого теста? Не суть (её я прекрасно знаю), а именно целеполагание? Почему на этот мем постоянно ссылаются? И что значит "не проходит" - вы же понимаете, что у вас референс даже не определён!

Наверное, в этом контексте успешное прохождение теста Тьюринга подразумевает под собой неспособность человека отличить аутпут модели от аутпута другого человека

Не суть (её я прекрасно знаю)

Наверное, в этом контексте успешное прохождение теста Тьюринга подразумевает под собой неспособность человека отличить аутпут модели от аутпута другого человека

Что нам даёт это понимание? Разве цель разработчиков была "сделать генерацию неотличимой от человеческой"? Ну отличается и что дальше? Это даже в плюс работает, как оказалось))

неспособность человека

Какого конкретно человека? ;)

Воспринимайте это просто как некий условный майлстоун. 10 лет назад вопрос о прохождении любым существующим алгоритмом теста Тьюринга всерьёз на повестке не стоял. А сейчас это уже предмет споров, причем уже не в ключе "проходит/не проходит", а в стиле:

Разве цель разработчиков была "сделать генерацию неотличимой от человеческой"?

Значит майлстоун, можно сказать, достигнут, подавайте новый.

Значит майлстоун, можно сказать, достигнут, подавайте новый.

Так в изначальном комменте как раз говорят, что не достигнут ;)

По моим сравнениям даже бесплатная Gpt-5 определенно лучше чем Grok-4 в части логики, который в свою очередь намного лучше Deepseek. Причем на момент релиза прошлой зимой DeepSeek R1 был на уровне топовых моделей OpenAi.

Так что развитие продолжается. Хотя и таких прорывов как было при переходе с Gpt3.5 на Gpt4 уже нет.

Посмотрим, что выкатит Deepseek R2, релиз которого ожидается в ближайшее время + планирую потестить pro версию Gpt-5.

Это было закатом на 10 лет. Инвестиции резко сократились тогда

Но сайты никуда не пропали же, до сдува пузыря ИИ есть ещё время, далеко не все ещё наигрались.

Кризис расчистил дорогу вебу 2.0, пессимизм инвесторов никак этому не помешал.

Если проводить аналогию, то ИИ сейчас достиг потолка прямолинейного экстенсивного развития, но возможных новых направлений столько, что нам с вами не хватит фантазии предугадать облик отрасли через 10 лет. Считайте, что сингулярность уже наступила.

Хаброжители уверенно определяют текст LLM, то есть тест Тьюринга LLM снова не проходит.

Им просто лень сделать грамотный промпт с few-shot для того, чтобы сделать ее менее формальной и сухой

В подписке Pro доступ к старым моделям остался

Увы, но нет, не остался. Возможно, на кого-то ещё просто не раскатилось обновление с ограничением доступа. На меня – раскатилось. :'(

Там в настройках должна быть галочка, включающая доступ к Legacy-моделям.

Спасибо, нашёл!!!

Уже нет такой настройки :( Возможно, зависит от варианта подписки?

Точно зависит: обещали доступ к старым моделям только на "Pro", потом прогнулись, и пообещали доступ к "GPT-4o" и на других тарифах.

У нас подписка Team. Возможно потом включат. Вчера чехарда весь день была: с утра включилась гпт5, потом посреди дня зашел - опять 4ка и 3ка, а вечером вновь только 5ка.

У меня в хроме в бесплатном режиме включилась 5 модель. Но особо разницы не заметил. Видимо у меня задачи такие простые, которые не требуют от ИИ напрягаться. Большинство людей думаю и не поймет, какой там интеллект их запрос обработал.

А без 3х букв openai провайдером можно пользоваться в например roocode или cline, кто знает?

Думаю купить но хотелось бы иметь представление о том нужен ли мне постоянный прокси

По идее можно в опенроутере использовать ключ OpenAI. Openrouter работает без впна и сам в таком плане будет работать как прокси. А рукод и клайн как раз его по умолчанию поддерживают.

openrouter уже давно без vpn некоторых провайдров (в т.ч. openai) не пускает, т.е. интерфейс чата доступен но любая генерация возвращает ошибку

Писал статью для Хабра, про ядерное оружие. Закинул в GPT-5, чтоб вычитать опечатки. Он разобрался в физике, подтвердил выводы и нарисовал инфографику. А я статью целый день писал.

и нарисовал инфографику.

Сразу в печь, не читая.

«Э» вместо «з», «выюбросы», я видел подобного стиля тексты на сферических китайских товарах в вакууме ещё много лет тому назад. Получается, у китайских трудящихся были нейросети задолго до шумихи на западе. )

То, что китайцы пользовались западными переводчиками, маловероятно?

GPT учился у лучших академиков, странно было бы если б он плохо рассчитал.

GPT учился у лучших академиков

Знаем такого

Не просто странно, а обыденно ;)
Точно так же тупит на элементарных арифметических задачах. Точно так же категорически не умеет в геометрию.

ПосейдРн -дрын-дрын-дрын

Простите.

Если дрын nосеешь, дрын и nожнёшь.

подтвердил выводы

Модели в целом склонны соглашаться и поддакивать пользователю. Вот если бы нашлись существенные недостатки, на которые модель явно обращает внимание - тогда другое дело.

А пока приходится явно требовать "прочитай, осознай, покритикуй" с переменным успехом.

Искал баг в конфигурации пайплайна на Azure Devops. Загнал в GPT-5. Медитировал, смотря на рассуждения нейронки, увидел в мыслях место, которое я не проверил, посмотрел, реально там, исправил, всё заработало. Через минуту и финальный совет от GPT-5 подоспел, увы, не в тему. Но софтинка полезная, рекомендую

Я то же самое с DeepSeek'ом делаю - иногда его рассуждения наводят на правильную мысль, хотя он сам может какой-нибудь бред при этом нести.

Дешевле - не важно, пока пользуешься бесплатно, быстрее - не всегда, а энергоэффективность пока пользуешься бесплатно вообще волновать не должна)

Единственный плюс, что утёнок работает даже без интернета! ;-)

Особенно если утенок в должности тим лида)

Попробовал сегодня эту пятерку (бесплатно). Я уже давно понял, что ChatGPT надо кидать сразу полный файл и просить, чтобы она высылала его обратно с предлагаемыми изменениями. Это по-любому будет тупо быстрее, чем брать те исправления, которые она предлагает, и искать, куда их влепить и проверять, не ошибся ли -- при том, что она еще и может по ходу дела поменять имена уже существующих переменных в своих фрагментах кода. С предыдущей версией это было оптимальным вариантом, по крайней мере, для меня: у меня пара рабочих файлов тянет где-то 4.8 тыс. токенов, а разрешается до 128 тыс. токенов (с учетом ответов ГПТ), так что я укладывался в эту норму.
Но пятерка начала болтать, объясняя свои действия, и скидывать куски кода вместо того, чтобы просто скинуть файл целиком, хотя я ее просил об этом сразу, учитывая предыдущий опыт. В результате она довольно быстро израсходовала лимит токенов и перекинуля меня на 4о-мини, которая сразу сделала, что я попросил. Возможно, что и лимит токенов у пятерки меньше, чем был раньше. Типа "плата за рассудительность" )) Но я не спрашивал.
В общем, новое -- не обязательно лучше старого. Разумеется, для кого как.

Чел, заведи себе агента уже - Cline, Roo, тысячи их

Мне ГПТ нравится тем, что она может по описанию задачи сгенерировать код. Например, мне нужно было сделать модель хемотаксиса. Я составил описание того, что хочу видеть, что с чем связано, какие переменные, и она выдала вполне нормальный код на Питоне. А потом еще и предложила сделать поле градиента аттрактанта в районе клетки, чтобы моделировать направление движения в сторону градиента концентрации хемоаттрактанта. Я сам до этого не додумался. Были и другие предложения. В конце концов с ее помощью я добился того, чего хотел.
Очевидно, что модель может быть не оптимальна, но она вполне делает то, что мне нужно. Плюс ГПТ работает очень быстро, поэтому я обычно начинаю работать с ней, пока она не начинает галюцинировать или повторяться. Тогда я перехожу к другим моделям.
Интересно, как с точки зрения генерации кода по описанию задачи ведут себя другие модели -- тот же Грок, например. У меня нет времени на эксперименты (тут надо одну и ту же задачу прогонять через разные модели и сравнивать, как код себя ведет), но может, у кого-то есть соответствующий опыт.

Вы можете загнать одну и ту же задачу в разные модели параллельно на lmarena.ai и оценить их пригодность для своих задач. Мне вообще больше всего Gemini 2.5 Pro нравится.

Очевидно, что модель может быть не оптимальна, но она вполне делает то, что мне нужно.

Я имел в виду мою модель хемотаксиса, не ГПТ ))

32к токенов? Серьезно?

У Google Gemini 2.5 pro миллион, туда можно хоть целую кодбазу закинуть за раз, и пользоваться на ai studio можно почти без ограничений бесплатно

Да, 32к токенов сейчас это смешно. У клода 200к, даже у дипсика 128к.

Для этого у них есть codex :)

Справедливости ради, качество падает при приближении к 100k токенов. Что-то она отвечает и если зарядить на все, иногда даже полезное, но начинает путаться и упускать детали.

"предел токенов", это не какое-то строгое число. Эффективность модели в целом зависит от текущего объёма контекста, и у всех по разному в зависимости от датасета и обучения. В среднем, пик эффективности на паре тысяч токенов, затем модель начинает потихоньку тупеть.

Это как маркетинговым числом ИСО в фотоаппаратах. Вот взять какой-нибудь старый зеркальный кэнон, у которого написано предельный исо 102'400, а рядом никон с 32'000. Первый лучше? А как бы ни так, второй значительно меньше шумит на высоких исо, а ту разницу в максимальном исо оказывается можно вытянуть в проявщике с качеством даже лучше.

Так и тут. Эти заявленные цифры едва ли могут иметь общее с реальностью, ведь фактически же работает на своих сотнях тысяч токенов? Работает. А как — вопрос другой

У меня все существующие чаты переключиличь на GPT-5 без спроса. Я продолжил один из таких "замороженных" диалогов. Да, ChatGPT поумнел. Стал тормознее. А еще довольно быстро (буквально через несколько вопросов) сказал, что лимит запросов кончился и все. Переключиться на другую модель не дает. И автоматом переключает. Просто лупит ошибку "достигнут лимит, попробуйте позже" Если создать новый чат, то там дает общаться (модель gpt-4o), но там же нет контекста.

Какие же все капризные стали.

Основная проблема в том, что вместе с релизом gpt 5 убрали доступ ко всем старым моделям из интерфейса. Все старые чаты тоже перевелись на пятую модель. При этом сама пятерка пишет творческие вещи ощутимо хуже 4о.

Но Сэм уже пообещал вернуть 4о когда проводил AMA (ask me anything) на реддите, и лимиты планируют увеличить в два раза когда раскатка модели всем закончится.

Так что позже будет прилично, но выпуск модели вышел, прямо скажем, очень так себе. На хабре это особо не покрывали, но пятерку очень долго хайпили что Сэм что другие работники, так что ожидания были высоки. И все ждали увеличенного контекстного окна, потому что 32к прямо скажем не торт в 2025, когда у всех конкурентов минимум в несколько раз больше. Но его не обещали, так что тут сами виноваты.

Чё дали, то и дали. Наконец-то убрали весь этот зоопарк с тупым нэймингом. Работает пятерка гораздо лучше своих предков. Ненавязчиво и без тупых восторгов по всякой фигне. Творческие вещи самим надо писать. Меньше хлама будет тут.

Скорее просто качество хлама станет хуже

Ну и хорошо, будет легче распознать и игнорить.

Кстати, можно активировать GPT-5 почистив кэш браузера.

Скриншот веб-версии GPT-5
Скриншот веб-версии GPT-5

Действительно "полезный модель", качество видно сразу по вступительному тексту.

На бесплатном аккаунте появилась, вроде работает, но поскольку там лимиты смехотворные - ничего толкового у модели не спрашивал, просто "гуглил".

А вот в ботхабе дичь с этим gpt-5 - не знаю, чья заслуга и недоработка, но пользоваться малореально, слетает все форматирование.

Откатился на 4, там все ок.

Хуже пока только Grok, он иногда тупо случайные слова или фразы вставляет в код. Но зато лимиты у него очень добрые, если по синей галочке.

Так много на хабре мнений по поводу каждого ИИ, GPT5 это не модель, а архитектурный подход, где ваши вопросы теперь дешевле для альтмана.

Система просто роутит ответ от модели, которой достаточно для ответа на вопрос, что позволяет меньше экономить ресурсы для "PhD level" вопросов и не тратить ресурсы дорогих и ограниченных в масштабировании моделей на "Привет! Напиши статью на хабр"

Как раз таки вышло 3 модели GPT 5, это можно построить на сайте OpenAI, на страницах для разработчиков

"GPT-5 — свою самую мощную и передовую модель. Но несмотря на впечатляющие результаты в бенчмарках, сам запуск проходит с серьезными проблемами" - можно сказать продукт ещё сырой. Будет ещё много ошибок и сбоев пока мы научимся работать GPT-5(

Они по ходу общие настройки немного крутанули - меньше стал комплиментами сыпать. Причём вне контекста. Как будто просто уровень прибрали.

Вышел лучший AI за время существования вселенной а кто-то еще не достаточно рад =(

Попробуйте на пятом решить задачу 5.9 = x + 5.11 :D
Это уже мем. Я проверил, всё очень плохо. Попытайтесь потом с ним разобраться, как он так считает. Очень смешно.

Личное наблюдение - GPT-5 немного "умнее" GPT-4 но сильно медленнее и дает ответы таким языком что приходится по 5 раз переспрашивать и формировать понятную и ему и мне лексику.

Опыт проводил на одной сложной С++ функции с кучей математики и просил изучить ее и ускорить.

Если GPT-4 практически сразу заявил что ускорение невозможно и функция написана оптимально, то GPT-5 полез в лютые дебри причем использовал тяжелую лексику явно из учебника Фихтенгольца. Аж прям вспомнил молодость студенческую.

Пока разочарован. 200 в месяц это не стоит. Но может что исправится.

Язык стал более сленговым. Причем по айтишным темам сленг айтишный, а вот задавал ему вопросы по сантехнике - так там сленг дяди Васи из ЖЭКа стал проявляться ("давление на крану пилит", "трубу мотыляет", "насос щелкает от любого чиха" - это цитаты)

Может просто под вашу стилистику подстраивается ;)

Sign up to leave a comment.

Other news