Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 70

Огромную проблему заложили журналисты - путая модель ИИ (то что лежит в основе современного ИИ - большая языковая модель на основе того же GPT) и продукт, который использует под капотом такую модель или несколько, включая внешние инструменты, базы данных, интернет и т.п.

ChatGPT не равно GPT, уже больше года точно.

ChatGPT не равно GPT, уже больше года точно.

Можете описать, что имеется в виду, бо я не в теме;)

Одно - сервис, другое - серия моделей нейронных сетей, на которых этот сервис построен

уже больше года точно

А точнеееееееенее?!!

Неужели я кого-то так затронул вопросом: «Что изменилось в продуктах OpenAI, что за год их агент деклассифицировался из GPT ветки в отдельный класс?».

Извините за любопытство.

О, я как раз скачал свой бесплатный ИИ o3 от Nvidia.

(Который с Thinking)

Ай да OpenAI, какие молодцы!

Сказали OpenSource - OpenSource.

А я сомневался

А я уже думал что 200 млрд $ инвестиций в фирму "Занимающуюся разработкой T-9 вместе с учеными из DeepMind, которые слабо разбираются в нейросетях" - это бред, и все идиоты :)

Мне очень нравится, когда про модели других компаний пишут по факту их появления и оценки в действии. OpenAI же, прямо как наши говорящие головы в телевизоре, — живут в будущем. Все в планах, обещаниях и прогнозах.

Да они уже походу не знают что делать, джинн выпущен на свободу, а они думают почивать на лаврах первоокрывателей? Они сами же этого джинна выпустили из бутылки.

Однако, они делят первое место с Гуглом по качеству моделей

Но ведь bard была моделью низкого качества

Bard уже давно мертв. Теперь только Gemini и Gemma

Гугл это большая, неповоротливая, инертная машина, ему нужно было время чтобы разогнаться. Сейчас гемини стабильно держит первое место, и не теряет его даже когда конкуренты что-то новое выпускают.

В программирование точно нет. Да и вообще так себе. Ну или я использую такие кейсы, в которых он не силен. У меня подписка если что.

Я использую Gemini как архитектора — он отлично с этим справляется, а Claude кодит.

Как работает Gemini (Pro) последнее время мне очень нравится, даже перешел на него как на основного ИИ-ассистента (ранее был ChatGPT). А в кодинге мне помогает Github Copilot (Pro), который я использую именно для рутинных задач. Остальное предпочитаю делать сам 🤷‍♂️

гемини

Вы удивитесь, если узнаете, как на самом деле звучит "gemini". Все удивляются, кто не знал.

Т.е. название фильма с Уиллом Смитом у нас не смогли ни локализовать, ни точно перевести оригинал, и теперь запутали.

на самом деле

На каком "самом деле"? В русской речи вполне приемлемо использовать оригинальное латинское произношение, а не транслитерировать английское.

Есть примеры такого? "ГТА" вместо "джитиэй"?

Я говорил про gemini, которое исходно - латынь.

BMW же мы произносим согласно немецкому произношению букв, а не английскому.

Но при этом немецкий же Siemens говорим на английский манер.

И вам привет мистер Габургер.

Видите ли в самом итальянском все исказилось так, что слово Иллюзия мутировало в слово Iludo. А то что литеру “H” попросту не произносят, так это я вообще молчу.

Здравствуйте мистер Ватсон, «привет с большого бадуна»…

Когда приходится делить с конкурентами миллиардные инвестиции, не жалко потратить миллион‑другой на разгон хайпа.

Сам себя не похвалишь - от других не дождешься.

А я тем не менее повторю свой вопрос:

Когда нам вместо "бенчмарков" предъявят хотя бы один инцидент из любого известного и широко применяемого open-source проекта (Redis, PostgreSQL, ...), закрытый с помощью LLM?

GPT-5 не только пишет код, но и самостоятельно тестирует его и внедряет исправления.

При необходимости GPT-5 умеет разбивать задачу на шаги, а затем выполнять их по очереди, проверять результат и корректировать процесс.

Sonnet 4 умеет все то же самое уже сейчас, в чем здесь "прорыв" то?

Проверять не умеет

Хотя, что под этим понимать

Я под этим понимаю либо искать в интернете подтверждающие факты либо запускать программу в песочнице доказывать свой ответ

Умеет. Просто попроси. Например сделай апи, и проверь. Он сам запрос curl организует, ответ проверит и пойдет чинить если что-то не так. С фронтом тоже что-то подобное проворачивает.

Это слишком долго для проверки его бредовых гипотез. Пусть в своей песочнице проверяет и доказывает

Очень даже умеет. Может написать юнит-тесты для новой логики, запустить и проверить результаты.

Может запустить процесс с нужными аргументами и посмотреть что изменилось в базе.

Может делать CURL'ом запросы к API, как сказали выше.

Даже для фронта запускает какой-то просто браузер во вкладке VS Code, открывает страницу и пытается посмотреть console.log - правда, сейчас оно в копайлоте кажется сломано.

Подскажи, пожалуйста, Claude Sonnet 4 проверяет свой код у клиента или у себя?

у клиента (спрашивая разрешения на каждую команду). я использую его в VS Code с Agent mode

А зачем его пускать в свой проект? Пусть сам в своей песочнице запустит и покажет. А потом к себе можно перенести

А зачем мне заливать целиком свой проект куда-то, когда он уже у меня локально развернут с полностью настроенной средой и всеми зависимостями? Да и трафик гонять туда-сюда не надо будет.

А если что-то получится не так, всегда можно сделать git reset / revert (это он даже сам умеет делать, когда понимает что теория была ошибочной)

скачайте kiro (который форк от vscode), там ~50 api вызовов в сутки на claude sonnet 4 после регистрации, заодно и проверите все.

На машине, на который запущены эти инструменты командной строки https://www.anthropic.com/claude-code

Мб оно сможет наконец дебажить?

Но имхо для этого новая модель необязательна, достаточно просто обвесов, т. е. это скорее продукт на базе модели, а не модель.

Мб оно сможет наконец дебажить?

имею опыт офигевания. У меня был баг: одна плашка на сайте появлялась с ооочень большой задержкой. Попробовал поручить Claude 4 раздебажить. И он для решения описанного бага очень захотел залезть в девтулзы браузера, но у последнего не было апи. И поэтому агент с клодом мимоходом скачали playwright и написали себе плагин для браузера, которй реализовал им программный доступ к девтулзам. Так и отдебажили

Можете пожалуйста конфигурацией среды разработки поделиться? Какая IDE, как LLM подключена?

это был самый базовый cursor ai с claude 4.0. Это был буквально второй день моего знакомства с cursor, и ещё никаких rulse, mcp и т.п. я не подключал.

так что я не знаю, как воспроизвести такой же вау-эффект ещё раз умышленно. Допускаю, что мне дико повезло с этой задачей.

rulse

rules. Поздно заметил, уже не поправить. А поправить надо - в мире ai и в мире js любая комбинация букв может означать готовый фреймворк и увести в лес)

Спасибо

Можете пожалуйста уточнить - насколько я знаю, Playwright при развертывании также устанавливает (пытается установить) Chromium, WebKit и Firefox. Ну то есть в отличии от npm install нужны права администратора. В вашем случае они уже были установлены?

Встану рядом за инфой о вашем сетапе, впечатлило

Так есть codex, от OpenAI, он может дебажить)

Он так же может декомпозировать задачу, развернуть доокер итд. А ещё по ощущениям хорошо ориентироваться в большом проекте, хоть он и читает код кусками и долго.

Для сравнения, была задача которую я сделал за 20 минут, особо не зная проект, а кодекс решил её почти за час если ближе к вайб кодингу уходить.

Решение кстати в разы лучше того что обычно предлагает какой нибудь gpt4o или о3.

В работе активно юзаю когда надо найти какую то логику, сущности, файлы или даже накидать догадки. Вот как ускорение анализа тема.

Так есть codex, от OpenAI, он может дебажить)

Оно стоит 229 евро в месяц или я не туда смотрю? В рамках chatgpt pro.

Я не программист, так, вайбкодингом занимаюсь от скуки. Если никакой революции у кодекса нет по сравнению с тем, что есть в агенте 4.1 в вскоде, я бы не стал столько платить.

А, вот о чем речь. Понял.

«Фуфло» короче впихивают, говорите! 🤪 за такие-то бабки…

Вот да. Внизу тоже пишут, что есть вопросики. Полагаю, что ничего революционного за 10х к цене там не произошло.

На версии за 20$ Codex есть (по крайней мере - у меня).
Но его, думаю, надо уметь готовить. Я пока только учусь, выходит слабенько

Главное — правильно подать прогрев.

Гпт уже давно имеет установки проверять код на своем сервере, чем прилично затрудняет процесс кодинга, так как проверяет он зачастую не то. Я лично проверяю гипотезы только у себя, мне нужно смотреть на вывод ошибки, если будет. Сонет и Опус тоже так могут делать, но я в системном промпте установила запрет на проверку кода на стороне ЛЛМ.

Государственная пропаганда во всех странах всегда работает одинаково: у них новости из будущего и тотальная безответственность за предыдущие анонсы.

Сейчас ещё и ИИ-пропаганда точно так же себя ведёт:)

Просто напоминаю о предыдущих предсказаниях и журналистских оценках, типа:

Если GPT-3.5 был суперзвездой школы, то GPT-4 - это доктор наук, обучавшийся в лучших университетах планеты.

Чего уж там, можно было сразу Нобелевский лауреат.

До "нобелевского" уровня осталось ещё чуть-чуть подождать...
https://habr.com/ru/companies/bothub/news/850334/

>Асмодей утверждает, что «мощный ИИ» появится уже к 2026 году. Под этим он понимает ИИ, который будет умнее лауреатов Нобелевской премии в областях биологии и инженерии, сможет решать математические теоремы и даже писать «по-настоящему хорошие романы».

GPT-5 рвёт в программировании? Отлично, осталось научить его разбираться в чужом legacy-коде без слёз.

Что вызывает больше слез: Легаси или ии-сгенеренный код в проде?

За легаси кодом когда-то стоял человек с идеей и желанием, чтобы оно заработало.

Не обязательно. Может стоять человек который хотел всё максимально запутать, осложнить и жить вечно на постоянном ремонте этого ужаса. Например помню когда ещё школьником был, устроился в компьютерный клуб. Там всё ПО было построено по принципу всё постоянно ломается чтобы платили за ремонт. Пришлось всё с нуля переделывать

Или ленивый человек, лишь бы работало. Особенно при расширении кода. Там заглушка, там адаптер к старью, и поехали.

У ИИ другие минусы, но он хотябы не ленивый.

А уж GPT-10 точно устроит апокалипсис и будет нас всех контролировать через 7G Ну-ну.. Сколько я прочитал такого умного про Интел его процесс 18А.. А его даже постыдились показывать людям..А на 14А - нет заказчиков (читай дурачков) - дайте денег. И что мешает делать отдельную AI только программирования и скорее для разных языков? Видимо, только одно - кто-то заинтересован в надувании пузыря акций этих компаний, продавать все эти видеокарты и т.п.

Кто заинтересован продавать видеокарты - в общем и целом понятно как бы ))

GPT-5 совершит огромный рывок в программировании — The Information

Может, совершит, а может, и не совершит.

А вообще, не перестаю поражаться тому, как увлечённо человеки пытаются отдать искусственной башке все самые интересные задачи. Чтобы что? Чтобы пойти слесарем на завод, потому что остальные более-менее интересные профессии уже отдали ИИ?

Писать код, тексты, рисовать картинки и снимать видео люди и сами умеют. Лучше бы Сэм Альтман и ему подобные все свои силы направили на поиск с помощью ИИ лекарства от множества заболеваний, вроде рака и иммунодефицитов, которые были бы доступны каждому, на развитие технологий, на изучение климата, а не тратили время на какую-то ерунду, которая в масштабах человечества не приносит ничего хорошего, только потихоньку сводит отдельных людей с ума.

ИИ способен двигать науку вперёд, но вместо этого он пока всего лишь двигает крышу людям, которые чуть ли не браки с чат-ботами заключают.

Альтман и другие главы ИИ-компаний так никогда не будут делать, к сожалению. Их явная замашка на будущее – подсадить все (или почти все) бизнесы на ИИ вместо человеческих разработчиков. Они уже напирают на то, что без разницы кто пишет blackbox (в глазах владельца компании), а важно только извлекать доход – это просто идеал в мире больших компаний.

Даже сейчас, судя по форумам, компании покупают подписки уровня Max для своих разработчиков и постепенно урезают рабочие места, ведь теперь 1 разработчик с 2-3 подписками на ИИ заменяет 2-3 других разрабов из-за увеличений продуктивности.

Продакт менеджеры теперь могут тестить гипотезы с большей скоростью при помощи всяких Bolt и Lovable.

Они метят в самый дорогой сегмент (после руководителей) в компаниях. Они понимают, что заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных, а вот заменить разработчиков – идеал для таких компаний.

В общем ИИ по подписке on-demand может принести миллиарды долларов в ближайшее время, а исследования в области рака – это большие деньги, долгие исследования, долгие тестирования, поэтому людям вроде Альтмана такое не интересно.

ведь теперь 1 разработчик с 2-3 подписками на ИИ заменяет 2-3 других разрабов из-за увеличений продуктивности.

это то, что пытаются продать, не более. в реальности там +10-15% к производительности и то скорее за счёт потери хард-скиллов разработчиком из-за вайбкодинга.

Они понимают, что заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных

Ту же логику как и с разработчиками можно применить здесь: вырастет производительность, можно меньше набирать/сокращать работников. Сейчас ещё появился Agent2Agent и развиваются такие платформы как LangChain.

А может дать другой эффект, выше производительность, проще стало делать проекты, поэтому даже мелкие и средние компании могут захотеть реализовать то, что раньше не могли себе позволить.
Появляются новые работы, по созданию/внедрению/поддержке разных агентов.

Ну и нужно понимать, что значит ИИ вместо разработчиков, кто будет ставить задачи и потом это хотя бы минимально проверять. SEO что ли или продакт менеджер вместо своей работы?

заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных

Я бы так не сказал. Вот только что: скинул ChatGPT Agent пачку договоров и сказал сделать к ним счета по образу - и он справился буквально идеально. Я бы провозился час с тупым copy|paste, а он сделал за пару минут и еще 5 минут мне на проверку.

Особо приятно, что это именно не переписывание всего текста (что могло дать ошибки), а правки в конкретных ячейках.

Так что "замены менеджеров экселя" - перспектива тоже не слишком далекая :)

Основная проблема/подстава в том, что они ошибаются. И умеют очень скрывать свои ошибки за видом вроде корректных суждений/предложений.

И когда человек привыкает к положительным результатом, то он начинает больше доверять и меньше перепроверять и это потом играет с ним плохую шутку.

Хорошо если ошибка вызвала минимальные последствия, но может выйти и боком. Например:

https://habr.com/ru/news/931338/

Согласен, это касается всего, где одна сторона ответственна перед другой. Например, "урон" от ошибки в каком-нибудь сайте будет в разы меньше, чем от ошибки в приложении.

Например, ИИ сделал просто идеальное приложение 10/10, но импортировал туда библиотеки, которые гугл/эпл считает вредоносными, в итоге будет забанен кабинет разработчика и этим компаниям будет абсолютно безразлично, что это было сделано без злого умысла и вообще это был ИИ.

Ну по правде говоря за моделями и их кодом нужен глаз да глаз, вот на днях чат мне в хешмэп-алгоритм с логарифмической сложностью воткнул линейную проверку и на голубом глазу утверждал, что это правильно. После спора согласился, переписал на то, как надо. Но если закрыть на такое глаза, то, обладая нужной квалификацией, ИИ инструменты действительно неплохо ускоряют работу. Только вот есть ли такая квалификация у всех вайбкодеров.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости