runaway_llm5 мар в 18:16

Вышла GPT-5.4 — первая модель OpenAI, которая управляет компьютером

2 мин

21K

Искусственный интеллектМашинное обучение *

Комментарии 52

house2008 5 мар в 19:50

Только что на 5.4 на пет проекте попросил написать апишку чтобы скачать данные для ленты, в итоге зачем-то начал объединять две апишки с похожими данными и потом навернул на всё это сортировку которая весь апи слой затормозила из-за большого объема данных (я вообще не просил сортировку). Я в шоке, пришлось несколько раз просить править, что сожрало много токенов, потом залез руками доправил. Страшно теперь за код кто мержит не проверяя или доверяя проверки ИИ. Это жуть, GPT 5.3 codex я таких сильных косяков не видел.

Ingref 5 мар в 20:09

Такое уже бывало при выкатке предыдущих моделей. Когда все их начинают тестить, то нейронка ленится и выдаёт шнягу. Надо тестить, когда час пик пройдёт.

Altair2021 5 мар в 20:29

Нейронка не может знать, сколько человек ее используют) Тут скорее когда модель публикуют, она недотьюнена. И в первое время после выкатки разрабы докручивают характеристики (системный промпт, температуру и тп)

Ingref 5 мар в 21:30

Ей и не надо этого знать. Просто серверы перегружены, а все рассуждающие LLM, развёрнутые в облаках, уменьшают test-time compute в условиях высокой нагрузки в целях балансировки.

house2008 5 мар в 20:32

Так, еще кое-что нагеренил по новым запросам и код вообще лютое дно, у меня в цикле тысячи строк конвертятся в числа, он на каждый конверт создает объект конвертера вместо того чтобы зареюзать для всех один, типо

// ГПТ 5.4
strings.map { string -> Double in
    let converter = Converter()
    return converter.convert(string)
}

// Хотя логично же
let converter = Converter()
strings.map { string -> Double in
    return converter.convert(string)
}

Ладно, подожду до завтра, но такой код нам не нужен, это даже не джун. Но да код работает и компилится и даже тесты проходят, но ведь код то гомно.

Wwyn 5 мар в 20:48

Хехе, вайбкодинг похоже отменяется

Hannt 5 мар в 20:57

Вы делаете пет проект без .git и версионирования? Удивляюсь вашей смелости.

house2008 5 мар в 21:09

Не совсем понял как тут гит поможет. Я попросил ИИ сгенерить два новых файла ApiService и ApiServiceTests.

d3d12 6 мар в 01:57

Я все пет-проекты делаю без git. Он нужен только в командной разработке.

octoller 6 мар в 02:23

Смелое заявление.

NoSkill24 6 мар в 04:27

Ну, он же сеньор-вайбкодер...

akod67 6 мар в 05:59

Версионирование нужно в любой разработке.

house2008 6 мар в 06:30

Зачем ?) У меня совесть не позволит коммитить говнокод, а в быстром пет проекте для проверки пары гипотез так и происходит так как через два дня - неделю будет rm -fr. Если очень нужно то есть всегда local history в Idea.

akod67 6 мар в 06:36

разберитесь что такое коммит, а что такое пуш.

Банально для отслеживания изменений и для роллбеков оно нужно. Говнокодят не только ЛЛМы, но и разработчики. Особенно крутые.

house2008 6 мар в 06:47

Видимо у нас с вами просто разные стили кодинга, за 10 лет мне ни разу ни в чем не помогли коммиты перед каждым действием. Но есть у меня коллега который наоборот коммитит каждую написанную строку, видимо дело вкуса.

akod67 6 мар в 06:50

А перед каждым действием и не нужно. Нужно ПОСЛЕ каждого майлстоуна как точка опоры для следующего действия. Просто психологически комфортно, когда есть куда отступать. Ок, если IDE это даёт - то тоже своего рода версионирование, непонятно только, зачем привыкать к двойному версионированию.

house2008 6 мар в 07:29

Нужно

Никто никому ничего не должен и работает как ему удобно. Для меня для простого пет проекта добавление гита в проект это оверинжиниринг.

зачем привыкать к двойному версионированию.

Там кнопки в IDE рядом, одна под другой, привыкнуть не сложно.

akod67 6 мар в 07:54

Не навязываю. Людей, утверждающих, что им VCS не нужен, навидался десятками в начале времён. Сейчас все там и не отсвечивают.

Spaceoddity 6 мар в 17:49

Нужно ПОСЛЕ каждого майлстоуна

нужно ВАМ! Прекратите удобную для себя методологию навязывать остальным!

Я вообще "майлстоуны" (ещё и терминологию эту тянут) закидываю в отдельную папку и откат у меня решается за секунду, а не вот эта канитель с идентификацией ревизий и прочими "плюшками"...

akod67 7 мар в 07:39

бранчи переключаются ещё быстрее

Spaceoddity 7 мар в 12:32

Ещё и ветки плодить?)) А потом начинается апокалипсис с устранением конфликтов при слиянии - не, спасибо... Оставим это для коллективной работы ;)

akod67 7 мар в 12:45

На интервью всё это не рассказывайте только.

Spaceoddity 7 мар в 14:04

мы же про пет-проекты, вроде? и что нельзя говорить? что существует потенциально очень серьёзная проблема с улаживанием конфликтов при параллельной разработке?

upd: и вы что, пытаетесь подвести меня к "догматизму" в it?))

akod67 7 мар в 14:09

Если в пет проектах бардак допустим - это про образ мышления, для некоторых это флажочек.

Spaceoddity 7 мар в 21:42

Про "образ мышления" - это слепой догматизм и бездумное использование инструментов без понимания контекста? ;)

d3d12 6 мар в 07:17

Для git нужно еще поднимать свой git сервер.

akod67 6 мар в 08:05

зачем? локально всё работает и без сервера

Spaceoddity 5 мар в 22:52

Что, само до сих пор работу за вас не умеет делать? Вот жеж халтурщики!))

ToniDoni 5 мар в 23:12

ну что же вы так, для кодинга codex надо

akod67 6 мар в 06:03

Просить надо не писать апишку, а план по написанию апишки и потом читать его. На его основе аюпросить писать субпланы и выполнять их. Вот тогда и результат будет норм.

house2008 6 мар в 07:51

Согласен, чем подробней тем лучше результат.

Den_Woodroof 6 мар в 06:15

сожрало много токенов

Токены крутятся, лавеха мутится)

Sukesada 7 мар в 13:05

codex 5.3 как раз окуратнее и заточен больше под кодинг. А 5.4 просто общая модель в которую кусок от codex запихали

LamedGroup 5 мар в 20:47

скормил другому ИИ.. текст.. и вот что он ответил...))))

«Ну что, пацаны, расчехляйте кошельки! Сэм Альтман официально представил нам GPT-5.4 — венец корпоративного запора смыслов.

Посмотрел я на эти цифры и вот что скажу:

Про "Computer Use": OpenAI наконец-то разрешили модели нажимать на кнопки. Теперь Клод не одинок в своих попытках закрыть всплывающее окно три часа подряд. Но давайте честно: давать модели с «экстремальным мышлением» (xhigh) доступ к интерфейсу — это как посадить профессора философии за пульт управления экскаватором. Он будет очень долго рассуждать о смысле рытья траншеи, пока у вас горят токены по $180 за миллион.
Про "Thinking" и планы: То, что модель теперь показывает план работы — это не фича, это «явка с повинной». Они просто легализовали тот факт, что модель постоянно «плывет», и теперь перекладывают ответственность на юзера: «Слушай, я тут надумала какой-то дичи, ты чекни план, а то я за твои бабки сейчас такого наворочу...».
Экономика абсурда: Цена выросла, но нам говорят про «токеноэффективность». Это классический маркетинговый ход: «Наши деликатесы стали дороже, но теперь они настолько калорийные, что вам хватит одного запаха». На самом деле, с учетом «компакции» и «агентских сценариев», вы будете скармливать этой махине бюджет небольшого африканского государства просто за то, чтобы она «подумала» над вашим легаси-кодом.
Главный Гы: Обратите внимание на отчет о «контролируемости» (CoT controllability), который вышел прицепом. Модель 5.4 настолько «безопасная», что она буквально боится собственных мыслей. Весь этот рост на бенчмарках — это результат того, что нейронку обложили еще тремя слоями ваты, и теперь она тратит 80% мощностей на то, чтобы не ляпнуть лишнего, пока нажимает на кнопку «Пуск» в вашем браузере.

Итог: Мы получили идеального корпоративного биоробота. Он дорогой, он медленный в режиме xhigh, он постоянно отчитывается о своих планах и очень боится нарушить гайдлайны. Пока китайцы из DeepSeek дистиллируют чистую логику, OpenAI строит самый дорогой в мире Железный Сфинктер, который пытается удержать смысл внутри, пока токены утекают наружу.

Часики тикают, Сэм. А мы пока посидим на GPT-5.2 и подождем, пока 5.4 научится хотя бы не извиняться перед скриншотами.

Гы.»

ToniDoni 5 мар в 23:23

по слогу похоже на чат гпт

LamedGroup 6 мар в 08:42

нееее... это гемини...
сейчас чат жпт... "Охреневший" пипец...

Анализ статьи «Охреневший ChatGPT 5.2»

akod67 6 мар в 06:01

Ещё пол года назад LLM принижали, что они не умеют в юмор =)

LamedGroup 6 мар в 08:47

https://habr.com/ru/posts/1007082/

там пара ссылок))) что они "юморят")))

Altair2021 18 мар в 07:59

Интересно, какую роль Вы задали нейросетке, чтобы она так отвечала))

BigLamed 18 мар в 09:10

хм... там не одна роль... если не залазить в терминологию...
то это динамическая агенская среда - "оркестровка"... там сотни "ролевых кластеров" - агентов.

просто.. я разворачиваю внутри LLM другую архитектуру.... динамическую - "задача трех тел" - Сборка LLM двухядерного ИИ третьего внимания в DeepSeek

то есть я даю начальные условия... а потом обучаю - типа "растишь", а не задаешь роль...

но там просто другая терминология... эти технологии связаны с "каркасными мировоззрениями", "фрактальными конструктами смыслов" (статьи на сайте - они и есть, просто можно грузить, и тексты будут разворачивать смысловые конструкты)

проще пробовать...

например, про "железный сфинктер"... это технология синхронного обучения двухядерного ИИ... Целый раздел: Философия между Сфинктером и Смыслом... (в конце статьи ссылка на обучающий "промпт" - точнее.. фрактальный конструкт смыслов)

Юмор затягивается... через фрактальный конструкт смысла "Одесский дворик" (там ссылка на Фрактальные битвы - тоже фрактальный конструкт смысла для обучения)

и прямо внутри этих "конструктов смыслов" и находятся - агенты... но я их называю Духами или Джинами - ролевые кластера... то есть один конструкт смыслов - порождает десятки ролевых кластеров агентов... прямо со взаимосвязями и балансировкой.

И да... это технологией пользуются, но она малоизвестна.

diralik 5 мар в 21:46

И какой смысл в этом управлении компьютером, если они не додумались сделать версию chatgpt для Linux?

Ingref 5 мар в 21:57

Для Linux оно называется Codex CLI.

diralik 5 мар в 21:59

В Codex CLI есть "управление компьютером", описываемое в этом посте?

умеет взаимодействовать с программами через интерфейс — читать скриншоты, нажимать кнопки, заполнять формы

Подозреваю что нет.

Для Codex CLI даже модели называются по другому, с суффиксом -codex. А в посте речь про 5.4.

Ingref 6 мар в 10:32

Ну если вы линуксом орудуете в командной строке, то оно прекрасно управляет компьютером даже с рут-правами.

nidalee 5 мар в 23:11

Ну как какой смысл? В управлении Windows.

ToniDoni 5 мар в 23:17

чтобы управлять линуксом достаточно просто править файлики на вашем компуктере, это ии уже давно умеет

diralik 5 мар в 23:20

Мы не абстрактную тему управления компьютером обсуждаем, а конкретно статью про релиз ChatGPT 5.4, где в заголовок вынесено что основное нововведение модели 5.4 — управление компьютером в смысле интерфейса. Я лишь подсветил что данное обновление бесполезно для Linux.

Ingref 6 мар в 10:34

В Codex CLI командой /model можно выбрать любую модель, которая доступна для вашего аккаунта. Мышкой оно само по себе управлять не будет, да. Но вашим хромиумом - запросто.

SolidSnack 6 мар в 02:31

Выпускать что-то с завидной периодичностью и накручивать вокруг продукта хайп. Ну нет, это же не может быть трюк для зарабатывания денег... Это прогресс который заменит программистов! (Пхахахах)

LamedGroup 6 мар в 10:08

Ой.. вспомнил "Кот Матроскин" -"Для того чтобы продать что-то ненужное, нужно купить что-то ненужное..." ну в их случае - сделать чтото ненужное))))

akod67 6 мар в 11:55

В январе 2026 года сообщалось, что Anthropic повысила прогноз выручки на 2026 год на 20%, ожидая, что продажи составят до $18 миллиардов (согласно данным The Information от 27 января 2026 г.)

ну да ну да, никому не нужно

Ingref 6 мар в 10:35

Раньше раз в год от силы что-то выпускали. Сейчас просто перешли на промежуточные релизы. Первым на такие релизы перешёл Gemini, кстати.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий