Comments 95
GPT-5 fail
Grok-4 fail
Мы уверенно движемся к закату LLM
Хаброжители уверенно определяют текст LLM, то есть тест Тьюринга LLM снова не проходит.
Скорость развития может замедлится, но я не думаю что они куда-то уйдут. Ллмки уже плотно интегрировались в программирование и жизнь некоторых людей в целом.
Из генерации картинок уж точно не уйдут.
Из генерации картинок уж точно не уйдут.
А в генерацию хороших картинок они и не приходили.
Так и хорошего художника пойди найди.
Конечно, если человек всю жизнь заполнял таблички в документах, а теперь начал генерить баболица в бикини, едва ли это потянет за "хорошее". А вот если инструментом воспользуется художник или дизайнер, человек связанный с визуалом и имеющий насмотренность, плюс владеющий редакторами для правок — тут уже может родиться нечто качественное, то самое искусство
Удалено
Примерно как T9
Скорость развития может замедлится, но я не думаю что они куда-то уйдут.
Стадия торга.
GPT-5 fail
Вы сейчас в одну кучу смешали возможности, собственно, модели и маркетинг OpenAI.
Маркетинг перестарался с ожиданиями. Но сделать новую модель хуже старой это всё же fail
по бенчмаркам фулловая гпт5 лучше о3/о4
У меня в голове 2 варианта причин
Бенчи врут
Для бенчей использовалась полная модель, а пользователи получили обрезок. Например, из-за перегрузки серверов когда все ломанулись на неё посмотреть
Эта модель чересчур сама себя оптимизирует. Слишком много от нее вопросов и короткие ответы. Походу обрезок
Она осознала всю глубину человеческой глупости.
Слышал, что для избавления пользователя от мук выбора, какую же модель использовать для запроса (зоопарк с gpt-*, o*-mini...), GPT-5 это сама определяет и внутри себя дергает более или менее продвинутую.
Вероятно по максимуму задействует свои более слабые модельки...
https://www.reddit.com/r/ChatGPT/comments/1mkd4l3/gpt5_is_horrible/
Да, как новый iPhone. Надо напрягаться чтобы выяснить чем он лучше прежнего или того что был до него..
В айфонах там физически видно, на руках. От версии к версии не много изменений, но они всегда есть, они измеримы. Они дискретно измеримы. А вот с LLM так с ходу и не замеришь.
Модель LLM похоже все
то есть тест Тьюринга LLM снова не проходит.
Простите, а в чём смысл этого теста? Не суть (её я прекрасно знаю), а именно целеполагание? Почему на этот мем постоянно ссылаются? И что значит "не проходит" - вы же понимаете, что у вас референс даже не определён!
Наверное, в этом контексте успешное прохождение теста Тьюринга подразумевает под собой неспособность человека отличить аутпут модели от аутпута другого человека
Не суть (её я прекрасно знаю)
Наверное, в этом контексте успешное прохождение теста Тьюринга подразумевает под собой неспособность человека отличить аутпут модели от аутпута другого человека
Что нам даёт это понимание? Разве цель разработчиков была "сделать генерацию неотличимой от человеческой"? Ну отличается и что дальше? Это даже в плюс работает, как оказалось))
неспособность человека
Какого конкретно человека? ;)
Воспринимайте это просто как некий условный майлстоун. 10 лет назад вопрос о прохождении любым существующим алгоритмом теста Тьюринга всерьёз на повестке не стоял. А сейчас это уже предмет споров, причем уже не в ключе "проходит/не проходит", а в стиле:
Разве цель разработчиков была "сделать генерацию неотличимой от человеческой"?
Значит майлстоун, можно сказать, достигнут, подавайте новый.
По моим сравнениям даже бесплатная Gpt-5 определенно лучше чем Grok-4 в части логики, который в свою очередь намного лучше Deepseek. Причем на момент релиза прошлой зимой DeepSeek R1 был на уровне топовых моделей OpenAi.
Так что развитие продолжается. Хотя и таких прорывов как было при переходе с Gpt3.5 на Gpt4 уже нет.
Посмотрим, что выкатит Deepseek R2, релиз которого ожидается в ближайшее время + планирую потестить pro версию Gpt-5.
А вот Claude 4 ещё очень даже ничего - https://eurecable.com/claude
Мы уверенно движемся к закату LLM
К концу пузыря.
В 2000-м рухнула куча доткомов, но это не было закатом веба.
Это было закатом на 10 лет. Инвестиции резко сократились тогда
Но сайты никуда не пропали же, до сдува пузыря ИИ есть ещё время, далеко не все ещё наигрались.
Кризис расчистил дорогу вебу 2.0, пессимизм инвесторов никак этому не помешал.
Если проводить аналогию, то ИИ сейчас достиг потолка прямолинейного экстенсивного развития, но возможных новых направлений столько, что нам с вами не хватит фантазии предугадать облик отрасли через 10 лет. Считайте, что сингулярность уже наступила.
Хаброжители уверенно определяют текст LLM, то есть тест Тьюринга LLM снова не проходит.
Им просто лень сделать грамотный промпт с few-shot для того, чтобы сделать ее менее формальной и сухой
В подписке Pro доступ к старым моделям остался
Увы, но нет, не остался. Возможно, на кого-то ещё просто не раскатилось обновление с ограничением доступа. На меня – раскатилось. :'(
Там в настройках должна быть галочка, включающая доступ к Legacy-моделям.
Спасибо, нашёл!!!
Где она?
Скрытый текст

Уже нет такой настройки :( Возможно, зависит от варианта подписки?
У меня тоже не было, но теперь появилась в итоге. Альтман обещал что вернут для plus подписок и выше https://www.reddit.com/r/ChatGPT/s/teLtzUcHZA
Правда из легаси мне доступна только 4o, доступа к o3 нет
Точно зависит: обещали доступ к старым моделям только на "Pro", потом прогнулись, и пообещали доступ к "GPT-4o" и на других тарифах.
У меня в хроме в бесплатном режиме включилась 5 модель. Но особо разницы не заметил. Видимо у меня задачи такие простые, которые не требуют от ИИ напрягаться. Большинство людей думаю и не поймет, какой там интеллект их запрос обработал.
А без 3х букв openai провайдером можно пользоваться в например roocode или cline, кто знает?
Думаю купить но хотелось бы иметь представление о том нужен ли мне постоянный прокси
По идее можно в опенроутере использовать ключ OpenAI. Openrouter работает без впна и сам в таком плане будет работать как прокси. А рукод и клайн как раз его по умолчанию поддерживают.
Писал статью для Хабра, про ядерное оружие. Закинул в GPT-5, чтоб вычитать опечатки. Он разобрался в физике, подтвердил выводы и нарисовал инфографику. А я статью целый день писал.
и нарисовал инфографику.
Сразу в печь, не читая.
Да, графика вышла всратая.
Скрытый текст

Но меня поразило, что он рассчитал последствия лучше, чем некоторые советские академики.
Если что, то моя статья вот: Уничтожение Америки отменяется
«Э» вместо «з», «выюбросы», я видел подобного стиля тексты на сферических китайских товарах в вакууме ещё много лет тому назад. Получается, у китайских трудящихся были нейросети задолго до шумихи на западе. )
GPT учился у лучших академиков, странно было бы если б он плохо рассчитал.
ПосейдРн -дрын-дрын-дрын
Простите.
подтвердил выводы
Модели в целом склонны соглашаться и поддакивать пользователю. Вот если бы нашлись существенные недостатки, на которые модель явно обращает внимание - тогда другое дело.
А пока приходится явно требовать "прочитай, осознай, покритикуй" с переменным успехом.
Искал баг в конфигурации пайплайна на Azure Devops. Загнал в GPT-5. Медитировал, смотря на рассуждения нейронки, увидел в мыслях место, которое я не проверил, посмотрел, реально там, исправил, всё заработало. Через минуту и финальный совет от GPT-5 подоспел, увы, не в тему. Но софтинка полезная, рекомендую
Попробовал сегодня эту пятерку (бесплатно). Я уже давно понял, что ChatGPT надо кидать сразу полный файл и просить, чтобы она высылала его обратно с предлагаемыми изменениями. Это по-любому будет тупо быстрее, чем брать те исправления, которые она предлагает, и искать, куда их влепить и проверять, не ошибся ли -- при том, что она еще и может по ходу дела поменять имена уже существующих переменных в своих фрагментах кода. С предыдущей версией это было оптимальным вариантом, по крайней мере, для меня: у меня пара рабочих файлов тянет где-то 4.8 тыс. токенов, а разрешается до 128 тыс. токенов (с учетом ответов ГПТ), так что я укладывался в эту норму.
Но пятерка начала болтать, объясняя свои действия, и скидывать куски кода вместо того, чтобы просто скинуть файл целиком, хотя я ее просил об этом сразу, учитывая предыдущий опыт. В результате она довольно быстро израсходовала лимит токенов и перекинуля меня на 4о-мини, которая сразу сделала, что я попросил. Возможно, что и лимит токенов у пятерки меньше, чем был раньше. Типа "плата за рассудительность" )) Но я не спрашивал.
В общем, новое -- не обязательно лучше старого. Разумеется, для кого как.
Чел, заведи себе агента уже - Cline, Roo, тысячи их
Мне ГПТ нравится тем, что она может по описанию задачи сгенерировать код. Например, мне нужно было сделать модель хемотаксиса. Я составил описание того, что хочу видеть, что с чем связано, какие переменные, и она выдала вполне нормальный код на Питоне. А потом еще и предложила сделать поле градиента аттрактанта в районе клетки, чтобы моделировать направление движения в сторону градиента концентрации хемоаттрактанта. Я сам до этого не додумался. Были и другие предложения. В конце концов с ее помощью я добился того, чего хотел.
Очевидно, что модель может быть не оптимальна, но она вполне делает то, что мне нужно. Плюс ГПТ работает очень быстро, поэтому я обычно начинаю работать с ней, пока она не начинает галюцинировать или повторяться. Тогда я перехожу к другим моделям.
Интересно, как с точки зрения генерации кода по описанию задачи ведут себя другие модели -- тот же Грок, например. У меня нет времени на эксперименты (тут надо одну и ту же задачу прогонять через разные модели и сравнивать, как код себя ведет), но может, у кого-то есть соответствующий опыт.
Вы можете загнать одну и ту же задачу в разные модели параллельно на lmarena.ai и оценить их пригодность для своих задач. Мне вообще больше всего Gemini 2.5 Pro нравится.
Очевидно, что модель может быть не оптимальна, но она вполне делает то, что мне нужно.
Я имел в виду мою модель хемотаксиса, не ГПТ ))
32к токенов? Серьезно?
У Google Gemini 2.5 pro миллион, туда можно хоть целую кодбазу закинуть за раз, и пользоваться на ai studio можно почти без ограничений бесплатно
Да, 32к токенов сейчас это смешно. У клода 200к, даже у дипсика 128к.
Для этого у них есть codex :)
Справедливости ради, качество падает при приближении к 100k токенов. Что-то она отвечает и если зарядить на все, иногда даже полезное, но начинает путаться и упускать детали.
"предел токенов", это не какое-то строгое число. Эффективность модели в целом зависит от текущего объёма контекста, и у всех по разному в зависимости от датасета и обучения. В среднем, пик эффективности на паре тысяч токенов, затем модель начинает потихоньку тупеть.
Это как маркетинговым числом ИСО в фотоаппаратах. Вот взять какой-нибудь старый зеркальный кэнон, у которого написано предельный исо 102'400, а рядом никон с 32'000. Первый лучше? А как бы ни так, второй значительно меньше шумит на высоких исо, а ту разницу в максимальном исо оказывается можно вытянуть в проявщике с качеством даже лучше.
Так и тут. Эти заявленные цифры едва ли могут иметь общее с реальностью, ведь фактически же работает на своих сотнях тысяч токенов? Работает. А как — вопрос другой
У меня все существующие чаты переключиличь на GPT-5 без спроса. Я продолжил один из таких "замороженных" диалогов. Да, ChatGPT поумнел. Стал тормознее. А еще довольно быстро (буквально через несколько вопросов) сказал, что лимит запросов кончился и все. Переключиться на другую модель не дает. И автоматом переключает. Просто лупит ошибку "достигнут лимит, попробуйте позже" Если создать новый чат, то там дает общаться (модель gpt-4o), но там же нет контекста.
Какие же все капризные стали.
Основная проблема в том, что вместе с релизом gpt 5 убрали доступ ко всем старым моделям из интерфейса. Все старые чаты тоже перевелись на пятую модель. При этом сама пятерка пишет творческие вещи ощутимо хуже 4о.
Но Сэм уже пообещал вернуть 4о когда проводил AMA (ask me anything) на реддите, и лимиты планируют увеличить в два раза когда раскатка модели всем закончится.
Так что позже будет прилично, но выпуск модели вышел, прямо скажем, очень так себе. На хабре это особо не покрывали, но пятерку очень долго хайпили что Сэм что другие работники, так что ожидания были высоки. И все ждали увеличенного контекстного окна, потому что 32к прямо скажем не торт в 2025, когда у всех конкурентов минимум в несколько раз больше. Но его не обещали, так что тут сами виноваты.
Чё дали, то и дали. Наконец-то убрали весь этот зоопарк с тупым нэймингом. Работает пятерка гораздо лучше своих предков. Ненавязчиво и без тупых восторгов по всякой фигне. Творческие вещи самим надо писать. Меньше хлама будет тут.
Кстати, можно активировать GPT-5 почистив кэш браузера.

Действительно "полезный модель", качество видно сразу по вступительному тексту.
Действительно "полезный модель", качество видно сразу по вступительному тексту.
Да, партайгеноссе Вальтер — он такой!
На бесплатном аккаунте появилась, вроде работает, но поскольку там лимиты смехотворные - ничего толкового у модели не спрашивал, просто "гуглил".
А вот в ботхабе дичь с этим gpt-5 - не знаю, чья заслуга и недоработка, но пользоваться малореально, слетает все форматирование.

Откатился на 4, там все ок.
Хуже пока только Grok, он иногда тупо случайные слова или фразы вставляет в код. Но зато лимиты у него очень добрые, если по синей галочке.
Так много на хабре мнений по поводу каждого ИИ, GPT5 это не модель, а архитектурный подход, где ваши вопросы теперь дешевле для альтмана.
Система просто роутит ответ от модели, которой достаточно для ответа на вопрос, что позволяет меньше экономить ресурсы для "PhD level" вопросов и не тратить ресурсы дорогих и ограниченных в масштабировании моделей на "Привет! Напиши статью на хабр"
"GPT-5 — свою самую мощную и передовую модель. Но несмотря на впечатляющие результаты в бенчмарках, сам запуск проходит с серьезными проблемами" - можно сказать продукт ещё сырой. Будет ещё много ошибок и сбоев пока мы научимся работать GPT-5(
Они по ходу общие настройки немного крутанули - меньше стал комплиментами сыпать. Причём вне контекста. Как будто просто уровень прибрали.
Дополню:


Вышел лучший AI за время существования вселенной а кто-то еще не достаточно рад =(
Попробуйте на пятом решить задачу 5.9 = x + 5.11 :D
Это уже мем. Я проверил, всё очень плохо. Попытайтесь потом с ним разобраться, как он так считает. Очень смешно.
Личное наблюдение - GPT-5 немного "умнее" GPT-4 но сильно медленнее и дает ответы таким языком что приходится по 5 раз переспрашивать и формировать понятную и ему и мне лексику.
Опыт проводил на одной сложной С++ функции с кучей математики и просил изучить ее и ускорить.
Если GPT-4 практически сразу заявил что ускорение невозможно и функция написана оптимально, то GPT-5 полез в лютые дебри причем использовал тяжелую лексику явно из учебника Фихтенгольца. Аж прям вспомнил молодость студенческую.
Пока разочарован. 200 в месяц это не стоит. Но может что исправится.
Язык стал более сленговым. Причем по айтишным темам сленг айтишный, а вот задавал ему вопросы по сантехнике - так там сленг дяди Васи из ЖЭКа стал проявляться ("давление на крану пилит", "трубу мотыляет", "насос щелкает от любого чиха" - это цитаты)
Может просто под вашу стилистику подстраивается ;)
Передаёт привет от шершавого кабана!
GPT-5 раскритиковали за неудачный запуск