runaway_llm Jul 25 at 17:33

GPT-5 совершит огромный рывок в программировании — The Information

1 min

34K

Artificial IntelligenceMachine learning *

+13

Comments 70

rPman Jul 25 at 18:30

Огромную проблему заложили журналисты - путая модель ИИ (то что лежит в основе современного ИИ - большая языковая модель на основе того же GPT) и продукт, который использует под капотом такую модель или несколько, включая внешние инструменты, базы данных, интернет и т.п.

ChatGPT не равно GPT, уже больше года точно.

Zalechi Jul 26 at 08:18

ChatGPT не равно GPT, уже больше года точно.

Можете описать, что имеется в виду, бо я не в теме;)

Kenya-West Jul 26 at 11:53

Одно - сервис, другое - серия моделей нейронных сетей, на которых этот сервис построен

Zalechi Jul 26 at 15:43

уже больше года точно

А точнеееееееенее?!!

Zalechi Jul 26 at 21:14

Неужели я кого-то так затронул вопросом: «Что изменилось в продуктах OpenAI, что за год их агент деклассифицировался из GPT ветки в отдельный класс?».

Извините за любопытство.

ValeriyPus Jul 25 at 18:42

О, я как раз скачал свой бесплатный ИИ o3 от Nvidia.

(Который с Thinking)

Ай да OpenAI, какие молодцы!

Сказали OpenSource - OpenSource.

А я сомневался

А я уже думал что 200 млрд $ инвестиций в фирму "Занимающуюся разработкой T-9 вместе с учеными из DeepMind, которые слабо разбираются в нейросетях" - это бред, и все идиоты :)

Halt Jul 25 at 18:52

Мне очень нравится, когда про модели других компаний пишут по факту их появления и оценки в действии. OpenAI же, прямо как наши говорящие головы в телевизоре, — живут в будущем. Все в планах, обещаниях и прогнозах.

Moog_Prodigy Jul 25 at 19:07

Да они уже походу не знают что делать, джинн выпущен на свободу, а они думают почивать на лаврах первоокрывателей? Они сами же этого джинна выпустили из бутылки.

Dhwtj Jul 25 at 20:52

Однако, они делят первое место с Гуглом по качеству моделей

Ratenti Jul 25 at 22:37

Но ведь bard была моделью низкого качества

R0uT3r Jul 26 at 00:20

Bard уже давно мертв. Теперь только Gemini и Gemma

ainu Jul 26 at 04:25

Гугл это большая, неповоротливая, инертная машина, ему нужно было время чтобы разогнаться. Сейчас гемини стабильно держит первое место, и не теряет его даже когда конкуренты что-то новое выпускают.

DanielKross Jul 26 at 05:44

В программирование точно нет. Да и вообще так себе. Ну или я использую такие кейсы, в которых он не силен. У меня подписка если что.

constXife Jul 26 at 06:48

Я использую Gemini как архитектора — он отлично с этим справляется, а Claude кодит.

Geologist5330 Jul 26 at 07:10

Как работает Gemini (Pro) последнее время мне очень нравится, даже перешел на него как на основного ИИ-ассистента (ранее был ChatGPT). А в кодинге мне помогает Github Copilot (Pro), который я использую именно для рутинных задач. Остальное предпочитаю делать сам 🤷‍♂️

perfect_genius Jul 26 at 10:12

гемини

Вы удивитесь, если узнаете, как на самом деле звучит "gemini". Все удивляются, кто не знал.

Т.е. название фильма с Уиллом Смитом у нас не смогли ни локализовать, ни точно перевести оригинал, и теперь запутали.

K0styan Jul 26 at 10:50

на самом деле

На каком "самом деле"? В русской речи вполне приемлемо использовать оригинальное латинское произношение, а не транслитерировать английское.

perfect_genius Jul 26 at 10:55

Есть примеры такого? "ГТА" вместо "джитиэй"?

K0styan Jul 26 at 13:17

Я говорил про gemini, которое исходно - латынь.

BMW же мы произносим согласно немецкому произношению букв, а не английскому.

PrinceKorwin Jul 26 at 15:30

Но при этом немецкий же Siemens говорим на английский манер.

Zalechi Jul 26 at 15:48

И вам привет мистер Габургер.

Видите ли в самом итальянском все исказилось так, что слово Иллюзия мутировало в слово Iludo. А то что литеру “H” попросту не произносят, так это я вообще молчу.

Zalechi Jul 26 at 15:45

Здравствуйте мистер Ватсон, «привет с большого бадуна»…

Fedorkov Jul 25 at 22:46

Когда приходится делить с конкурентами миллиардные инвестиции, не жалко потратить миллион‑другой на разгон хайпа.

lazy_val Jul 26 at 08:30

Сам себя не похвалишь - от других не дождешься.

А я тем не менее повторю свой вопрос:

Когда нам вместо "бенчмарков" предъявят хотя бы один инцидент из любого известного и широко применяемого open-source проекта (Redis, PostgreSQL, ...), закрытый с помощью LLM?

Uporoty Jul 25 at 19:06

GPT-5 не только пишет код, но и самостоятельно тестирует его и внедряет исправления.

При необходимости GPT-5 умеет разбивать задачу на шаги, а затем выполнять их по очереди, проверять результат и корректировать процесс.

Sonnet 4 умеет все то же самое уже сейчас, в чем здесь "прорыв" то?

Dhwtj Jul 25 at 20:54

Проверять не умеет

Хотя, что под этим понимать

Я под этим понимаю либо искать в интернете подтверждающие факты либо запускать программу в песочнице доказывать свой ответ

ArtursBirzgals Jul 26 at 06:33

Умеет. Просто попроси. Например сделай апи, и проверь. Он сам запрос curl организует, ответ проверит и пойдет чинить если что-то не так. С фронтом тоже что-то подобное проворачивает.

Dhwtj Jul 26 at 11:59

Это слишком долго для проверки его бредовых гипотез. Пусть в своей песочнице проверяет и доказывает

Uporoty Jul 26 at 07:36

Очень даже умеет. Может написать юнит-тесты для новой логики, запустить и проверить результаты.

Может запустить процесс с нужными аргументами и посмотреть что изменилось в базе.

Может делать CURL'ом запросы к API, как сказали выше.

Даже для фронта запускает какой-то просто браузер во вкладке VS Code, открывает страницу и пытается посмотреть console.log - правда, сейчас оно в копайлоте кажется сломано.

sarbasov Jul 26 at 08:45

Подскажи, пожалуйста, Claude Sonnet 4 проверяет свой код у клиента или у себя?

Uporoty Jul 26 at 09:05

у клиента (спрашивая разрешения на каждую команду). я использую его в VS Code с Agent mode

Dhwtj Jul 26 at 12:01

А зачем его пускать в свой проект? Пусть сам в своей песочнице запустит и покажет. А потом к себе можно перенести

Uporoty Jul 26 at 16:31

А зачем мне заливать целиком свой проект куда-то, когда он уже у меня локально развернут с полностью настроенной средой и всеми зависимостями? Да и трафик гонять туда-сюда не надо будет.

А если что-то получится не так, всегда можно сделать git reset / revert (это он даже сам умеет делать, когда понимает что теория была ошибочной)

dkeiz Jul 26 at 09:28

скачайте kiro (который форк от vscode), там ~50 api вызовов в сутки на claude sonnet 4 после регистрации, заодно и проверите все.

baguwka Jul 26 at 10:09

На машине, на который запущены эти инструменты командной строки https://www.anthropic.com/claude-code

VBDUnit Jul 25 at 21:08

Мб оно сможет наконец дебажить?

Но имхо для этого новая модель необязательна, достаточно просто обвесов, т. е. это скорее продукт на базе модели, а не модель.

plFlok Jul 25 at 22:02

Мб оно сможет наконец дебажить?

имею опыт офигевания. У меня был баг: одна плашка на сайте появлялась с ооочень большой задержкой. Попробовал поручить Claude 4 раздебажить. И он для решения описанного бага очень захотел залезть в девтулзы браузера, но у последнего не было апи. И поэтому агент с клодом мимоходом скачали playwright и написали себе плагин для браузера, которй реализовал им программный доступ к девтулзам. Так и отдебажили

lazy_val Jul 26 at 08:40

Можете пожалуйста конфигурацией среды разработки поделиться? Какая IDE, как LLM подключена?

plFlok Jul 27 at 14:58

это был самый базовый cursor ai с claude 4.0. Это был буквально второй день моего знакомства с cursor, и ещё никаких rulse, mcp и т.п. я не подключал.

так что я не знаю, как воспроизвести такой же вау-эффект ещё раз умышленно. Допускаю, что мне дико повезло с этой задачей.

plFlok Jul 27 at 19:31

rulse

rules. Поздно заметил, уже не поправить. А поправить надо - в мире ai и в мире js любая комбинация букв может означать готовый фреймворк и увести в лес)

lazy_val Jul 28 at 06:19

Спасибо

Можете пожалуйста уточнить - насколько я знаю, Playwright при развертывании также устанавливает (пытается установить) Chromium, WebKit и Firefox. Ну то есть в отличии от npm install нужны права администратора. В вашем случае они уже были установлены?

Ilusha Jul 26 at 20:20

Встану рядом за инфой о вашем сетапе, впечатлило

March228 Jul 25 at 23:29

Так есть codex, от OpenAI, он может дебажить)

Он так же может декомпозировать задачу, развернуть доокер итд. А ещё по ощущениям хорошо ориентироваться в большом проекте, хоть он и читает код кусками и долго.

Для сравнения, была задача которую я сделал за 20 минут, особо не зная проект, а кодекс решил её почти за час если ближе к вайб кодингу уходить.

Решение кстати в разы лучше того что обычно предлагает какой нибудь gpt4o или о3.

В работе активно юзаю когда надо найти какую то логику, сущности, файлы или даже накидать догадки. Вот как ускорение анализа тема.

nidalee Jul 26 at 13:47

Так есть codex, от OpenAI, он может дебажить)

Оно стоит 229 евро в месяц или я не туда смотрю? В рамках chatgpt pro.

Zalechi Jul 26 at 15:51

Бешенные бабки, для рядового программиста.

Взбесившиеся, я бы сказал :;)

nidalee Jul 26 at 16:44

Я не программист, так, вайбкодингом занимаюсь от скуки. Если никакой революции у кодекса нет по сравнению с тем, что есть в агенте 4.1 в вскоде, я бы не стал столько платить.

Zalechi Jul 26 at 21:04

А, вот о чем речь. Понял.

«Фуфло» короче впихивают, говорите! 🤪 за такие-то бабки…

nidalee Jul 26 at 21:05

Вот да. Внизу тоже пишут, что есть вопросики. Полагаю, что ничего революционного за 10х к цене там не произошло.

OuS Jul 26 at 20:39

На версии за 20$ Codex есть (по крайней мере - у меня).
Но его, думаю, надо уметь готовить. Я пока только учусь, выходит слабенько

Zalechi Jul 26 at 21:07

Да поддерживаю.

тоже буду пробовать

AlexaEremin Jul 25 at 23:50

Главное — правильно подать прогрев.

ngotova Jul 26 at 11:58

Гпт уже давно имеет установки проверять код на своем сервере, чем прилично затрудняет процесс кодинга, так как проверяет он зачастую не то. Я лично проверяю гипотезы только у себя, мне нужно смотреть на вывод ошибки, если будет. Сонет и Опус тоже так могут делать, но я в системном промпте установила запрет на проверку кода на стороне ЛЛМ.

Smartor Jul 25 at 22:04

Государственная пропаганда во всех странах всегда работает одинаково: у них новости из будущего и тотальная безответственность за предыдущие анонсы.

Сейчас ещё и ИИ-пропаганда точно так же себя ведёт:)

ideological Jul 25 at 23:34

Просто напоминаю о предыдущих предсказаниях и журналистских оценках, типа:

Если GPT-3.5 был суперзвездой школы, то GPT-4 - это доктор наук, обучавшийся в лучших университетах планеты.

Чего уж там, можно было сразу Нобелевский лауреат.

KennyGin Jul 26 at 12:55

До "нобелевского" уровня осталось ещё чуть-чуть подождать...
https://habr.com/ru/companies/bothub/news/850334/

>Асмодей утверждает, что «мощный ИИ» появится уже к 2026 году. Под этим он понимает ИИ, который будет умнее лауреатов Нобелевской премии в областях биологии и инженерии, сможет решать математические теоремы и даже писать «по-настоящему хорошие романы».

AlexaEremin Jul 25 at 23:49

GPT-5 рвёт в программировании? Отлично, осталось научить его разбираться в чужом legacy-коде без слёз.

Sindyashkin Jul 26 at 01:32

Что вызывает больше слез: Легаси или ии-сгенеренный код в проде?

sapper Jul 26 at 03:38

За легаси кодом когда-то стоял человек с идеей и желанием, чтобы оно заработало.

BlackMokona Jul 26 at 04:28

Не обязательно. Может стоять человек который хотел всё максимально запутать, осложнить и жить вечно на постоянном ремонте этого ужаса. Например помню когда ещё школьником был, устроился в компьютерный клуб. Там всё ПО было построено по принципу всё постоянно ломается чтобы платили за ремонт. Пришлось всё с нуля переделывать

ArtursBirzgals Jul 26 at 06:39

Или ленивый человек, лишь бы работало. Особенно при расширении кода. Там заглушка, там адаптер к старью, и поехали.

У ИИ другие минусы, но он хотябы не ленивый.

IceGerda Jul 26 at 10:01

А уж GPT-10 точно устроит апокалипсис и будет нас всех контролировать через 7G Ну-ну.. Сколько я прочитал такого умного про Интел его процесс 18А.. А его даже постыдились показывать людям..А на 14А - нет заказчиков (читай дурачков) - дайте денег. И что мешает делать отдельную AI только программирования и скорее для разных языков? Видимо, только одно - кто-то заинтересован в надувании пузыря акций этих компаний, продавать все эти видеокарты и т.п.

lazy_val Jul 26 at 14:16

Кто заинтересован продавать видеокарты - в общем и целом понятно как бы ))

SystemOutPrintln Jul 26 at 11:41

GPT-5 совершит огромный рывок в программировании — The Information

Может, совершит, а может, и не совершит.

А вообще, не перестаю поражаться тому, как увлечённо человеки пытаются отдать искусственной башке все самые интересные задачи. Чтобы что? Чтобы пойти слесарем на завод, потому что остальные более-менее интересные профессии уже отдали ИИ?

Писать код, тексты, рисовать картинки и снимать видео люди и сами умеют. Лучше бы Сэм Альтман и ему подобные все свои силы направили на поиск с помощью ИИ лекарства от множества заболеваний, вроде рака и иммунодефицитов, которые были бы доступны каждому, на развитие технологий, на изучение климата, а не тратили время на какую-то ерунду, которая в масштабах человечества не приносит ничего хорошего, только потихоньку сводит отдельных людей с ума.

ИИ способен двигать науку вперёд, но вместо этого он пока всего лишь двигает крышу людям, которые чуть ли не браки с чат-ботами заключают.

LupusX5 Jul 26 at 18:30

Альтман и другие главы ИИ-компаний так никогда не будут делать, к сожалению. Их явная замашка на будущее – подсадить все (или почти все) бизнесы на ИИ вместо человеческих разработчиков. Они уже напирают на то, что без разницы кто пишет blackbox (в глазах владельца компании), а важно только извлекать доход – это просто идеал в мире больших компаний.

Даже сейчас, судя по форумам, компании покупают подписки уровня Max для своих разработчиков и постепенно урезают рабочие места, ведь теперь 1 разработчик с 2-3 подписками на ИИ заменяет 2-3 других разрабов из-за увеличений продуктивности.

Продакт менеджеры теперь могут тестить гипотезы с большей скоростью при помощи всяких Bolt и Lovable.

Они метят в самый дорогой сегмент (после руководителей) в компаниях. Они понимают, что заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных, а вот заменить разработчиков – идеал для таких компаний.

В общем ИИ по подписке on-demand может принести миллиарды долларов в ближайшее время, а исследования в области рака – это большие деньги, долгие исследования, долгие тестирования, поэтому людям вроде Альтмана такое не интересно.

geornit25 Jul 26 at 18:58

ведь теперь 1 разработчик с 2-3 подписками на ИИ заменяет 2-3 других разрабов из-за увеличений продуктивности.

это то, что пытаются продать, не более. в реальности там +10-15% к производительности и то скорее за счёт потери хард-скиллов разработчиком из-за вайбкодинга.

arantar Jul 26 at 19:47

Они понимают, что заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных

Ту же логику как и с разработчиками можно применить здесь: вырастет производительность, можно меньше набирать/сокращать работников. Сейчас ещё появился Agent2Agent и развиваются такие платформы как LangChain.

А может дать другой эффект, выше производительность, проще стало делать проекты, поэтому даже мелкие и средние компании могут захотеть реализовать то, что раньше не могли себе позволить.
Появляются новые работы, по созданию/внедрению/поддержке разных агентов.

Ну и нужно понимать, что значит ИИ вместо разработчиков, кто будет ставить задачи и потом это хотя бы минимально проверять. SEO что ли или продакт менеджер вместо своей работы?

Quiensabe Jul 27 at 12:08

заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных

Я бы так не сказал. Вот только что: скинул ChatGPT Agent пачку договоров и сказал сделать к ним счета по образу - и он справился буквально идеально. Я бы провозился час с тупым copy|paste, а он сделал за пару минут и еще 5 минут мне на проверку.

Особо приятно, что это именно не переписывание всего текста (что могло дать ошибки), а правки в конкретных ячейках.

Так что "замены менеджеров экселя" - перспектива тоже не слишком далекая :)

PrinceKorwin Jul 27 at 14:32

Основная проблема/подстава в том, что они ошибаются. И умеют очень скрывать свои ошибки за видом вроде корректных суждений/предложений.

И когда человек привыкает к положительным результатом, то он начинает больше доверять и меньше перепроверять и это потом играет с ним плохую шутку.

Хорошо если ошибка вызвала минимальные последствия, но может выйти и боком. Например:

https://habr.com/ru/news/931338/

LupusX5 Jul 27 at 17:23

Согласен, это касается всего, где одна сторона ответственна перед другой. Например, "урон" от ошибки в каком-нибудь сайте будет в разы меньше, чем от ошибки в приложении.

Например, ИИ сделал просто идеальное приложение 10/10, но импортировал туда библиотеки, которые гугл/эпл считает вредоносными, в итоге будет забанен кабинет разработчика и этим компаниям будет абсолютно безразлично, что это было сделано без злого умысла и вообще это был ИИ.

NeoNN Jul 26 at 11:58

Ну по правде говоря за моделями и их кодом нужен глаз да глаз, вот на днях чат мне в хешмэп-алгоритм с логарифмической сложностью воткнул линейную проверку и на голубом глазу утверждал, что это правильно. После спора согласился, переписал на то, как надо. Но если закрыть на такое глаза, то, обладая нужной квалификацией, ИИ инструменты действительно неплохо ускоряют работу. Только вот есть ли такая квалификация у всех вайбкодеров.