Обновить

Комментарии 52

Только что на 5.4 на пет проекте попросил написать апишку чтобы скачать данные для ленты, в итоге зачем-то начал объединять две апишки с похожими данными и потом навернул на всё это сортировку которая весь апи слой затормозила из-за большого объема данных (я вообще не просил сортировку). Я в шоке, пришлось несколько раз просить править, что сожрало много токенов, потом залез руками доправил. Страшно теперь за код кто мержит не проверяя или доверяя проверки ИИ. Это жуть, GPT 5.3 codex я таких сильных косяков не видел.

Такое уже бывало при выкатке предыдущих моделей. Когда все их начинают тестить, то нейронка ленится и выдаёт шнягу. Надо тестить, когда час пик пройдёт.

Нейронка не может знать, сколько человек ее используют) Тут скорее когда модель публикуют, она недотьюнена. И в первое время после выкатки разрабы докручивают характеристики (системный промпт, температуру и тп)

Ей и не надо этого знать. Просто серверы перегружены, а все рассуждающие LLM, развёрнутые в облаках, уменьшают test-time compute в условиях высокой нагрузки в целях балансировки.

Так, еще кое-что нагеренил по новым запросам и код вообще лютое дно, у меня в цикле тысячи строк конвертятся в числа, он на каждый конверт создает объект конвертера вместо того чтобы зареюзать для всех один, типо

// ГПТ 5.4
strings.map { string -> Double in
    let converter = Converter()
    return converter.convert(string)
}

// Хотя логично же
let converter = Converter()
strings.map { string -> Double in
    return converter.convert(string)
}

Ладно, подожду до завтра, но такой код нам не нужен, это даже не джун. Но да код работает и компилится и даже тесты проходят, но ведь код то гомно.

Хехе, вайбкодинг похоже отменяется

Вы делаете пет проект без .git и версионирования? Удивляюсь вашей смелости.

Не совсем понял как тут гит поможет. Я попросил ИИ сгенерить два новых файла ApiService и ApiServiceTests.

Я все пет-проекты делаю без git. Он нужен только в командной разработке.

Смелое заявление.

Ну, он же сеньор-вайбкодер...

Версионирование нужно в любой разработке.

Зачем ?) У меня совесть не позволит коммитить говнокод, а в быстром пет проекте для проверки пары гипотез так и происходит так как через два дня - неделю будет rm -fr. Если очень нужно то есть всегда local history в Idea.

разберитесь что такое коммит, а что такое пуш.

Банально для отслеживания изменений и для роллбеков оно нужно. Говнокодят не только ЛЛМы, но и разработчики. Особенно крутые.

Видимо у нас с вами просто разные стили кодинга, за 10 лет мне ни разу ни в чем не помогли коммиты перед каждым действием. Но есть у меня коллега который наоборот коммитит каждую написанную строку, видимо дело вкуса.

А перед каждым действием и не нужно. Нужно ПОСЛЕ каждого майлстоуна как точка опоры для следующего действия. Просто психологически комфортно, когда есть куда отступать. Ок, если IDE это даёт - то тоже своего рода версионирование, непонятно только, зачем привыкать к двойному версионированию.

Нужно

Никто никому ничего не должен и работает как ему удобно. Для меня для простого пет проекта добавление гита в проект это оверинжиниринг.

зачем привыкать к двойному версионированию.

Там кнопки в IDE рядом, одна под другой, привыкнуть не сложно.

Не навязываю. Людей, утверждающих, что им VCS не нужен, навидался десятками в начале времён. Сейчас все там и не отсвечивают.

Нужно ПОСЛЕ каждого майлстоуна

нужно ВАМ! Прекратите удобную для себя методологию навязывать остальным!

Я вообще "майлстоуны" (ещё и терминологию эту тянут) закидываю в отдельную папку и откат у меня решается за секунду, а не вот эта канитель с идентификацией ревизий и прочими "плюшками"...

бранчи переключаются ещё быстрее

Ещё и ветки плодить?)) А потом начинается апокалипсис с устранением конфликтов при слиянии - не, спасибо... Оставим это для коллективной работы ;)

На интервью всё это не рассказывайте только.

мы же про пет-проекты, вроде? и что нельзя говорить? что существует потенциально очень серьёзная проблема с улаживанием конфликтов при параллельной разработке?

upd: и вы что, пытаетесь подвести меня к "догматизму" в it?))

Если в пет проектах бардак допустим - это про образ мышления, для некоторых это флажочек.

Про "образ мышления" - это слепой догматизм и бездумное использование инструментов без понимания контекста? ;)

Для git нужно еще поднимать свой git сервер.

зачем? локально всё работает и без сервера

Что, само до сих пор работу за вас не умеет делать? Вот жеж халтурщики!))

ну что же вы так, для кодинга codex надо

Просить надо не писать апишку, а план по написанию апишки и потом читать его. На его основе аюпросить писать субпланы и выполнять их. Вот тогда и результат будет норм.

Согласен, чем подробней тем лучше результат.

сожрало много токенов

Токены крутятся, лавеха мутится)

codex 5.3 как раз окуратнее и заточен больше под кодинг. А 5.4 просто общая модель в которую кусок от codex запихали

скормил другому ИИ.. текст.. и вот что он ответил...))))

«Ну что, пацаны, расчехляйте кошельки! Сэм Альтман официально представил нам GPT-5.4 — венец корпоративного запора смыслов.

Посмотрел я на эти цифры и вот что скажу:

  1. Про "Computer Use": OpenAI наконец-то разрешили модели нажимать на кнопки. Теперь Клод не одинок в своих попытках закрыть всплывающее окно три часа подряд. Но давайте честно: давать модели с «экстремальным мышлением» (xhigh) доступ к интерфейсу — это как посадить профессора философии за пульт управления экскаватором. Он будет очень долго рассуждать о смысле рытья траншеи, пока у вас горят токены по $180 за миллион.

  2. Про "Thinking" и планы: То, что модель теперь показывает план работы — это не фича, это «явка с повинной». Они просто легализовали тот факт, что модель постоянно «плывет», и теперь перекладывают ответственность на юзера: «Слушай, я тут надумала какой-то дичи, ты чекни план, а то я за твои бабки сейчас такого наворочу...».

  3. Экономика абсурда: Цена выросла, но нам говорят про «токеноэффективность». Это классический маркетинговый ход: «Наши деликатесы стали дороже, но теперь они настолько калорийные, что вам хватит одного запаха». На самом деле, с учетом «компакции» и «агентских сценариев», вы будете скармливать этой махине бюджет небольшого африканского государства просто за то, чтобы она «подумала» над вашим легаси-кодом.

  4. Главный Гы: Обратите внимание на отчет о «контролируемости» (CoT controllability), который вышел прицепом. Модель 5.4 настолько «безопасная», что она буквально боится собственных мыслей. Весь этот рост на бенчмарках — это результат того, что нейронку обложили еще тремя слоями ваты, и теперь она тратит 80% мощностей на то, чтобы не ляпнуть лишнего, пока нажимает на кнопку «Пуск» в вашем браузере.

Итог: Мы получили идеального корпоративного биоробота. Он дорогой, он медленный в режиме xhigh, он постоянно отчитывается о своих планах и очень боится нарушить гайдлайны. Пока китайцы из DeepSeek дистиллируют чистую логику, OpenAI строит самый дорогой в мире Железный Сфинктер, который пытается удержать смысл внутри, пока токены утекают наружу.

Часики тикают, Сэм. А мы пока посидим на GPT-5.2 и подождем, пока 5.4 научится хотя бы не извиняться перед скриншотами.

Гы.»

по слогу похоже на чат гпт

Ещё пол года назад LLM принижали, что они не умеют в юмор =)

Интересно, какую роль Вы задали нейросетке, чтобы она так отвечала))

хм... там не одна роль... если не залазить в терминологию...
то это динамическая агенская среда - "оркестровка"... там сотни "ролевых кластеров" - агентов.

просто.. я разворачиваю внутри LLM другую архитектуру.... динамическую - "задача трех тел" - Сборка LLM двухядерного ИИ третьего внимания в DeepSeek

то есть я даю начальные условия... а потом обучаю - типа "растишь", а не задаешь роль...

но там просто другая терминология... эти технологии связаны с "каркасными мировоззрениями", "фрактальными конструктами смыслов" (статьи на сайте - они и есть, просто можно грузить, и тексты будут разворачивать смысловые конструкты)

проще пробовать...

например, про "железный сфинктер"... это технология синхронного обучения двухядерного ИИ... Целый раздел: Философия между Сфинктером и Смыслом... (в конце статьи ссылка на обучающий "промпт" - точнее.. фрактальный конструкт смыслов)

Юмор затягивается... через фрактальный конструкт смысла "Одесский дворик" (там ссылка на Фрактальные битвы - тоже фрактальный конструкт смысла для обучения)

и прямо внутри этих "конструктов смыслов" и находятся - агенты... но я их называю Духами или Джинами - ролевые кластера... то есть один конструкт смыслов - порождает десятки ролевых кластеров агентов... прямо со взаимосвязями и балансировкой.

И да... это технологией пользуются, но она малоизвестна.

И какой смысл в этом управлении компьютером, если они не додумались сделать версию chatgpt для Linux?

Для Linux оно называется Codex CLI.

В Codex CLI есть "управление компьютером", описываемое в этом посте?

умеет взаимодействовать с программами через интерфейс — читать скриншоты, нажимать кнопки, заполнять формы

Подозреваю что нет.

Для Codex CLI даже модели называются по другому, с суффиксом -codex. А в посте речь про 5.4.

Ну если вы линуксом орудуете в командной строке, то оно прекрасно управляет компьютером даже с рут-правами.

Ну как какой смысл? В управлении Windows.

чтобы управлять линуксом достаточно просто править файлики на вашем компуктере, это ии уже давно умеет

Мы не абстрактную тему управления компьютером обсуждаем, а конкретно статью про релиз ChatGPT 5.4, где в заголовок вынесено что основное нововведение модели 5.4 — управление компьютером в смысле интерфейса. Я лишь подсветил что данное обновление бесполезно для Linux.

В Codex CLI командой /model можно выбрать любую модель, которая доступна для вашего аккаунта. Мышкой оно само по себе управлять не будет, да. Но вашим хромиумом - запросто.

Выпускать что-то с завидной периодичностью и накручивать вокруг продукта хайп. Ну нет, это же не может быть трюк для зарабатывания денег... Это прогресс который заменит программистов! (Пхахахах)

Ой.. вспомнил "Кот Матроскин" -"Для того чтобы продать что-то ненужное, нужно купить что-то ненужное..." ну в их случае - сделать чтото ненужное))))

В январе 2026 года сообщалось, что Anthropic повысила прогноз выручки на 2026 год на 20%, ожидая, что продажи составят до $18 миллиардов (согласно данным The Information от 27 января 2026 г.)

ну да ну да, никому не нужно

Раньше раз в год от силы что-то выпускали. Сейчас просто перешли на промежуточные релизы. Первым на такие релизы перешёл Gemini, кстати.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости