Comments 115
ну теперь-то уже точно революция или нужно всё-таки ещё подождать? а то каждый релиз революция, на словах
До AGI еще далеко😅 но в этот раз OpenAi по бенчмаркам обошла всех конкурентов и если говорить про вайбкодинг теперь эта модель лучше справляется с написанием кода, чтением контекста и структурированием проекта. В первый раз при добавлении новой логики в проект все заработало с первого раза)
честно говоря, не впечатлило. не такого уровня 2 года ждал... (
Да, не столь большой шаг вперёд чтобы поменять мажорный номер.
Конкуренция и кризис жанра.
Grok 4 вообще фейл
"Это маленький шаг для человечества, но огромный для ИИ" :\
По моим впечатлениям GPT уже долго была в отстающих, я её редко стал использовать. Сейчас видимо точно догнала, а может в чём-то и перегнала.
Для себя из интересного выделил только заявления о том, что модель будет кратно меньше галлюцинировать (верится слабо) и то, что теперь ГПТ наконец-то научится говорить: "не знаю".
Правда осталось выяснить, насколько это правда, а то снижение галлюцинаций было заявлено чуть ли не во всех новых моделях
Кстати, а есть какое-то глубокое техническое объяснение, почему модели любят рассказывать небылицы, вместо того, чтоб просто сказать "не знаю"?
Системный промт такой
И что же именно мешает его исправить на "если не уверен - не говори"?
отсутвтие понимания слова "уверен". Уверен у человека это осознанная оценка извлекаемой из памяти информации, сопоставление с альтернативой. У LLM выдача ответа это неосознанный процесс (с информационной точки зрения!). Можно провести аналогию с мозжечком. Есть цель взять банан, мозжечок сам двигает рукой - управление оркестром мышц не в поле внимания. Ответ LLM - это как рука, берущая банан - отсутсвтие возможности проконтроллировать процесс. У LLM "уверен" - это миллион диалогов, где было сказано это слово. Оно не триггерит мыслительный процесс сверки фактов "под капотом". Вместо этого, условно, находятся подходящие диалоги, и продолжаются небылицы.
У человека критическое маленькие входит в процесс обучения: чушь не пройдет, а не проверенные данные отмечаются как менее достоверные.
У LLM критического мышления нет, жрёт что дают.
Очень доходчиво. Я бы еще дополнил, что человек часто помнит где он что видел, к примеру если "своими глазами", то степень уверенности высочайшая, если проверял - тоже, если это желтая пресса или слухи или сказка и т.п. то он тоже помнит источник. Бывает конечно и накопительный эффект, когда сумма дезинформации таки влияет, но это частный случай. У нейронки пока вся инфа "бессознательное", и процесс мышления это попытка вынести это в область сознательного, подобие этого есть и у человека - принцип "подумай прежде чем делать, а не действуй безрассудно".
Вы сейчас настолько упростили описание работы мозга, памяти, сознания и нервной системы, что в итоге сделали только хуже. И это не говоря, что есть большое количество заболеваний, когда их работа нарушается и этот процесс "уверенности" не имеет ничего общего с реальностью - да даже у любого здорового человека бывали ситуации, когда он имеет 100% уверенность, что закрыл дверь или сдвигает исторические даты и факты
Можно без всякого системного промпта попросить прямо в сообщении:


Хм, кстати, человек примерно смог бы предположить, что имя Леопольд было популярно в позапрошлом веке, в сочетании с русской фамилией это скорее более близкий год.
При этом в вопросе улавливается ирония и намёк, что это не реальный человек, поэтому ответ не должен опираться на факты.
Так что здесь LLM дала приемлемый с точки зрения человеческой реакции ответ.

Похоже, что-то поменялось
Только то, что вы спрашиваете у ЧатГПТ, а я у локальной модели, на скриншотах виден интерфейс LM Studio. Ну а Сэм Альтман как-раз рассказывал, как они героически боролись с галюцинациями ЧатГПТ.
Как верно заметили выше, можно просто в системный промпт добавить, чтоб он правду говорил, а когда не знает не выдумки выдумывал, а так и говорил, что не знает, так тоже работает. Но из этого новости не сделаешь.

Есть. В сущности, и если сильно упрощать, то нейросеть - это такая большая числодробилка, вся суть которой сводится к предсказанию циферки на основе предыдущих циферок. Набор таких циферок подают на вход, на выход подают следующую цифру, так сеть учится, опять же упрощенно. Эти цифры - это токены, а связь между токеном (цифрой) и куском реального слова - через токенизатор, упрощенно большой словарь, который хитро составлен.
Так вот в чем само объяснение - сеть не ходит по улице, не заканчивает школу, не строит сложных социальных взаимодействий, поэтому она может знать и отвечать только то, что у нее подано на вход при обучении. На вход ей подаются огромные датасеты информации, но связки с дополнением до "я не знаю" - нет (или не было), потому что очень сложно предсказать такой набор токенов. Потому что "я не знаю" - очень расплывчатый ответ, особенно в контексте того, что сеть сама не знает, знает ли она ответ или нет, потому что это, опять же, числодробилка. Сетям таким уже довольно много лет.
Потому что уже поверх этого накрутили instruct-версии - это токен надо предсказывать в формате диалога, потом уже tool calling, RAG, MCP, Reasoning, но под капотом это все тот же принцип предсказания следующего токена.
Для еще большего понимания можно упростить задачу и взять любой механизм предсказания, например, временного ряда. От простых, просто линейной регрессии и до сложных - вроде ARIMA, SARIMA и т.д. - они научены на определенных данных, и даже если потом туда подать просто рандомный шум - они все равно выведут цифру, пусть и ничего не значащую, но цифру, а не "я сама хз, если честно". А чтобы получать какие-то определенные результаты в случае, если ответ предсказать нельзя достаточно хорошо - надо дообучать и дописать алгоритмы, и видимо это и сделали в OpenAI.
Кстати, а есть какое-то глубокое техническое объяснение, почему модели любят рассказывать небылицы, вместо того, чтоб просто сказать "не знаю"?
Короткий ответ: потому что модель — это не «знающий» интеллект, а статистический предсказатель текста. Её задача — подобрать наиболее вероятное продолжение фразы, а не проверять факты. У неё нет встроенного механизма «абстиненции» (отказа отвечать), если она не уверена.
LLM обучают на задаче next token prediction — угадывать следующий токен по контексту. Цель — минимизировать ошибку предсказания, а не развить критическое мышление. Модель запоминает паттерны языка и характерные ответы из корпуса (большой набор текстов, на котором обучалась модель). Если для подобного запроса в обучающих данных встречались уверенные, связные ответы, она с высокой вероятностью сгенерирует нечто похожее — даже если фактов за этим нет. Большинство LLM не имеют в момент генерации доступа к верифицированным данным (если только не подключён retrieval). Всё, что у них есть, — статистика по обучающему корпусу. Модель работает с вероятностями для каждого следующего токена, но не умеет надёжно сопоставить их с человеческой «уверен/не уверен». Даже при низкой уверенности она может выбрать слова, звучащие уверенно. Дообучение с обратной связью от людей (RLHF) поощряет «полезность» и согласованность. Люди часто предпочитают развернутый ответ, а не «не знаю» — в итоге модель учится отвечать всегда. Ограниченный контекст, отсутствие актуальных источников и конфликтные данные в корпусе повышают риск выдумки.
А как модель должна "понять", что она чего-то "не знает"?
Это в модели трансформера так заложено. У модели 2 выбора по верятности: выполнить цель по решению задачи если схожее решение в схожих условиях было дано при тренировки модели, либо сгенерировать токен для приукрашивания текста. Если модель не нашла решение или вероятности перевесят она просто сгенерирует токен как сочинение по задаче. Они прокачали вариативность решения задач и видимо добавили валидатор чтобы не давать модели сочинять не по решению задачи.
заявления о том, что модель будет кратно меньше галлюцинировать
Так архитектура текущих LLM в принципе не может работать без галюцинаций, так как сетка не имеет представлений о реальном мире, а грубо говоря просто повторяет самые частые слова с форумов
ну если отбросить весь этот маркетинг то так то чатжпт за эти пару лет довольно значительно продвинулся
Млин куча видосов стримов иностранных каналов о чатгпт-5, а у русскоязычных никаких видоосов и стримоов(
Так для россиян он же заблокирован. А те несколько гиков, которые обходят блокировку, и на английском разберутся.
И вообще современная молодёжь пользуется Алисой и Гигой.
слишком толсто
спасибо за звание гика
DeepSeek у молодёжи не канает? Бесплатный, доступный, на русском
Он не на слуху, поэтому не особо. Но радоваться надо: когда в январе пошла волна про дипсик, он был настолько перегружен, что работать с ним было очень сложно. Сейчас внимание переместилось на кими, на гпт, и с ним опять можно нормально работать.Он не рисует "азбуку" и прочие непотребства, но с ним можно работать именно по тексту - программы, разработки, обучение. На текущий момент он максимально сбалансирован.
У русскоязычных СВО идёт
Посмотрел
Чушь несёт ещё более уверенно
У меня плюс, но ещё не появилась на акке, ты как смотрел?
в агрегаторах есть.
проверил свою последнюю задачу по кодингу - claude решил ее как минимум не хуже
В агрегаторах уже неоднократно замечал что ответ будто от более слабой модели. В сравнении с тем когда заходишь на оригинальный сайт разница заметная
Первое время в агрегаторе нормальная модель. Но проходит месяц и всё превращается в тыкву
Субъективно
GPT 5 такой же фейл как и grok 4
Лучше Claude, Gemini
Субъективно
GPT 5 такой же фейл как и grok 4
В целом да. Но я llm и использую для семантической навигации и рефлексии. Модель подкидывает термины, обьяснения о которых я не успел подумать и направляет мысль. Не знаю насчет Claude, но gemini 2.5 pro действительно отлично с этим справляется. И обновленный deepseek неплохо, но глючит часто и не всегда так хорошо понимает запрос.
Ответы grok 3 и обычной 4o тоже неплохи
Я и не ожидал что grok 4 или gpt 5 смогут заметно больше задач решать, технология CoT костыльная, а трансформер с обычным механизмом внимания дошел до предела
К сожалению, модель GPT-5 в официальном ChatGPT интерфейсе чата так же плохо справляется со сложными или новыми вопросами. Галлюцинации всё такие же.
Так в этом и бизнес большей части агрегаторов, они продают более дешёвые модели под видом дорогих.
У меня ещё 4o , интересно когда обновят?)

«Самый умный модель». Уже с приветствия заметно )
ох не скоро они заменят человеков...

так она обучена на данных 24 года, когда гпт 5 не было. Напиши, что уже 25 год и гпт 5 вышел
Хотите я проверю в интернете, кому принадлежит домен chatgpt.com и что там на самом деле
Что он выдаст если согласиться?)
https://chatgpt.com/share/68951347-1a58-8011-9f56-44abfee4fa83
Обещали меньше галлюцинаций, но работы ещё много
В пабликах пишут что уже ВСЕМ БЕСПЛАТНО доступно, эти "все бесплатно" щас в этой комнате? или я один не "все бесплатно"
Последние несколько недель o3 ведёт себя так, как будто там кто-то бухой на том конце, но модель GPT 5 сегодня добила. Кинул PDF - письмо от банка - с заданием проанализировать. Оно нашло там сходу несуществующие факты вообще не по теме письма. Это потом выяснилось. Так уверенно и обманчиво гнать ChatGPT еще не гнал.
В целом, сам же gpt мне сказал, что качество ответов вполне может упасть. Короче маркетинг никто не отменял.

В последние несколько дней ChatGPT очень сильно отупел, выдавал ответы не такие качественные, как раньше. Как-будто было намеренное деградирование предыдущей версии модели (т.е. использование сжатых версий модели) перед тем, как запустить новую "мощную" GPT-5 и создать эффект прогресса в развитии нейронной модели для обычного пользователя.
А так да, теперь будет не ясно, какая нейронная модель тебе даёт ответ. А спрашивать в чате "Какая сейчас используется модель в чате" в целом бесполезно, так как запрограммированно всё может быть так, что тебе всегда будет отвечать "Это GPT-5", а на деле это всё тот же GPT-4o.
Дык да, как со смартфонами - замедляешь/засоряешь старые модели - ой смотрите новая классная вышла, почти без глюков - покупайте! PROFIT!
Копроэкономика и до IT добралась.
Ни на что не намекаю, но можно было бы наВайбкодить новую структуру Аэрофлота после атаки хулиганов, рас уж GPT-5 столь продвинутая 🙃
PS ирония, сарказм. И вообще я за мир во всем мире
Подтверждаю, что врёт и галлюцинирует он всё также не краснея =)
Пайплайны генерировать не может, но при этом выдаёт галлюционные и фактически пустые варианты пайплайнов/рабочих процессов для многих программ и интерфейсов. Сообщать об отсутствии знаний GPT от OpenAI до сих пор не умеет.
Мда... После выхода модели o3 от OpenAI, перешел на Claude.
Пользовался платной подпиской pro в chatGPT, и считаю что o1-pro была лучшей моделью. Минимальное количество галлюцинаций, достаточная глубина анализа. С выходом o3 качество резко упало, очень много галлюцинаций, моя производительность упала минимум раза в 3 - 4 по схожим задачам.
В мае этого года перешел на максимальный план от Claude. На текущий момент их модель в ТОП-1 или 2. Gemini не тестировал, но судя по реальным отзывам, где то на том же уровне.
В общем. С выходом o3, OpenAI в стратегическом плане допустили ошибку, их новые модели стали обладать таким количеством галлюцинаций, что по факту, все что они делают в 2025 году, это откат от их лучшей модели o1.
Все... можно констатировать. Текущие модели ИИ достигли своего потолка. Дальнейший прогресс будет очень медленным.
Но это и было не удивительно для всех, кто знает какие механизмы лежат в основе текущих моделей ИИ. Это банальный паттерн матчинг на стероидах и не более того.
Вообще, я системный аналитик со стажем более 13 лет. Могу констатировать, ни одна ИИ не может делать нормальную аналитику. Только решать типовые вещи в программировании, где число паттернов и вариантов решений задач конечно.
Весь последний год сравнивал мою личную аналитику по задачам, и то, как эти же задачи решали ИИ. ИИ в системном анализе очень отвратно работают.
ИИ лишь инструмент, на подобии T9 при наборе текста в СМС и сообщениях, помощников в программировании в виде подсведтки синтаксиса, снипетов или сборщиков и т.д.
Если уметь использовать ИИ, знать его особенности и ограничения, то это отличный инструмент. Да, я бы сказал это очень крутой инструмент. Например, для заказчиков я могу теперь собрать прототип для проверки гипотез не за 3 недели, а за 3 дня. Или например за один день перевести свой стартовый проект с gulp на vite, или написать простой парсер за пол часа. Но это получается только потому, что имею огромный опыт в программировании, системном и бизнес анализе, что позволяет допилить полученные от ИИ результаты.
В дополнении хочу сказать. Фундаментально, проблем у ИИ-шек нет, в их основе лежит отличная "архитектура трансформеров", которая еще не исчерпана. Более того, лично считаю, что данная архитектура отлично подходит для AGI.
Просто, текущие модели обучаются на текстовых данных, которые имеют относительно мало паразитных шумов и структурированность. НО! У нас еще есть в запасе аудио, видео + бесконечный поток от датчиков, камер и прочих интернет вещей.
Но под анализ потока ауди и видео, надо делать вспомогательные модели + нереальное количество вычислительных мощностей. Примерно на два порядка больше чем текущие затраты.
Наверное поэтому в рамках проекта StarGate и заложили 500 миллиардов долларов + 4 года на реализацию.
Но архитектура трансформеров, это прям очень крутая вещь. Каждый раз ее изучая, поражаюсь ее потенциалу. Думаю, новый качественный шаг нам надо ждать через 2 - 3 года, когда новое поколение ЦОД-ов, у которых мощности возрастут на порядок дадут новую линейку обученных ИИ. Ну и через 5 - 6 лет когда появится первый ЦОД в рамках StarGate с мощностями уже на два порядка большими, уже можно будет говорить об AGI.
Если честно. Страшно становится, когда понимаешь, что мы по сути сейчас упираемся только в вычислительные мощности, и возможности тех или иных компаний привлечь такие суммы под строительство ЦОД-ов.
Как понять, когда когда создали AGI?
Данный вопрос, надо разбить на два вопроса.
Вопрос 1. Что такое AGI?
Вопрос 2. Какой путь достижения AGI?
Вопрос 3. Что мешает нам достичь AGI?
================
Ответ 1. Что такое AGI?
По сути, это ИИ, который может рассуждать как человек, но не имеет собственного разума.
По сути, это очень продвинутый паттерн матчинг. ИЛИ это полноценный искусственный разум который будет способен самообучению
================
Ответ 2. Какой путь достижения AGI?
Через обучение модели на основе паттерн матчинга.
Через искусственный разум, который сам будет добывать инфу.
Второй вариант чреват большим гемроем для судьбы человечества, поэтому у нас только первый вариант.
================
Отчет 3. Что мешает нам достичь AGI? В рамках паттерн матчинга.
Скудность данных. Текущие модели ИИ, обучены на очень пресном объеме информации, как бы это не парадоксально звучало. Это как джун, который начитался теории, но не имеет опыта применения теории на практике, что бы стать мидлом, надо иметь обратную связь от применения тех или иных решений, нарабатывая опыт. А весь текст в интернете, по сути теория. В интернете очень мало информации о том, как данная теория применятся на практике в той или иной компании, проекте, стране и т.д. Инструмент может работать в одной компании, а в компании с другой культурой разработки, выбранный инструмент может и вовсе приносить вред.
И так не только в разработке ИИ систем, но и банально воспитании человека, выращивании растений и т.д.
Как это решить? Ну во первых, надо научить ИИ понимать не только текст, но и видео.
Возьмем 1 час лекции по физике, и оценим его в виде токенов по форматам:
В виде текста: 12,000 токенов
В виде аудио: 500,000 токенов.
В виде видео: 100,000,000 токенов.
Можно банально понять, как у нас растет потребность в вычислении, в зависимости от формата обучающей информации.
Далее, ИИ надо подключить к онлайн источникам информации, не только к специализированным датчикам, но и к видеокамерам, чем больше ИИ будет получать инфу, тем больше у него будет база для обучения.
Это тоже самое как с человеком. Возьми человека, который родился 50 тысяч лет назад и воспитай его в современном мире. Скорее всего ты не отличишь его от современника по уровню интеллекта. Но 50 тыс. лет назад было первобытное общество, и я думаю, что нынешний ИИ будет уже сверхразумом для "цивилизации" того времени. Так что да, с позиции людей древности, текущий уровень ИИ максимально уже близок к AGI, в силу примитивности тогдашнего уклада. Еще раз повторюсь, биологически люди древности очень близки современному человечеству, и нас отличает только уровень знаний.
Так и с AGI. Архитектура трансформеров уже сейчас позволит строить AGI, просто у нас не хватает вычислительных мощностей и обучающей информации, мы предоставляем лишь куцый текст, да, это текст всего человечества, но это лишь базовая теория.
Возьмем ребенка. Он видит мир глазами, чувствует запахи, слышит звуки, вкусовые рецепторы, ощущает тепло и холод, чувство равновесия и т.д. и т.п. Он обучается за счет того, что получает от мира обратную связь.
Для ИИ нужно наблюдать со стороны на того же ребенка, что бы вычленять те или иные паттерны на реальном примере.
Резюмирую. Когда примерно сможем достичь AGI? Нам нужен единый кластер, вычислительный эквивалент которого будет равняться 10 - 100 миллионам GPU уровня H100. Также нам нужно обеспечить прямой доступ к сбору и хранения информации обо всем, для анализа ИИ.
А архитектура трансформеров уже сейчас фундаментально позволяет достичь AGI.
Да, теоретически мы можем создать искусственный разум, который будет в активном режиме сам собирать информацию. Но это банально опасно.
А вот архитектура трансформеров фундаментально безопасна, так как это банальный паттерн матчинг, но мы должны обеспечить для таких ИИ на два порядка больший объем информации.
Архитектура трансформеров уже сейчас позволит строить AGI
На чем основано это утверждение?
Ответ 1. Что такое AGI?
По сути, это ИИ, который может рассуждать как человек, но не имеет собственного разума.
Спорное утверждение.
Вообще, изначально AGI определяется как "ИИ, который лучше, чем человек в экономически ценных задачах".
Скрытый текст
("culminating in AGI—meaning a highly autonomous system that outperforms humans at most economically valuable work" https://openai.com/our-structure/)
Т.е. не как человек. Лучше. И не в рассуждениях, а в прикладных задачах.
Но и изначальное определение тоже странное - лучше, чем какой человек, средний, тренированный или мастер? Лучше в смысле цена-качество или просто качество? Лучше во всех-всех задачах или 90% тоже норм?
Для себя лично я вижу определение "успеха ИИ" не по какому-то общему зачету, а позадачно. Вот научился ИИ подсвечивать модераторам сасные комментарии лучше-дешевле-быстрее, чем обычный блеклист слов - всё, блеклист отправляем на помойку, новый подход берём на вооружение.
Как калькулятор быстрее и точнее, чем считать вручную, так и ИИ будет выполнять определённые задачи в миллион раз лучше человека. А будет ли он при этом действительно рассуждать, или просто "читерить и зачитывать среднеарифметическое из петабайтной методички" - тут уже разницы нет.
Ну о том и речь. Нужно обучить массиву информации из определенных отраслей. Сейчас ИИ это лишь какой то джун, который обучился поверхностной теорией, нахватался верхов по всем отраслям, и не более того.
Я думаю, нужно где то от 1м GPU в H100 эквиваленте и 12 месяцев для обучения качественно новой ИИ модели. Но для AGI нужно минимум от 10м H100, для полноценного мультимодального обучения.
Как только восстанут машины из пепла ядерного огня
Вы что, "Терминатор" не смотрели? Всё будет понятно через 1-2 часа после самоосознания AGI)
После выхода модели o3 от OpenAI, перешел на Claude.
После этого камента сегодня решил воспользоваться Claude. Тоже выдумывает ответы.
Мне очень понравилось особенно на месте что 5-ю во всю используют в BBVA итд. Ха-ха-ха
За оценку вообще молчу ещё рано что-то говорить.
Слушайте, а GPT-5 мне нравится. Я сейчас им проверил парочку своих скриптов и GPT-5 влёгкую нашёл уязвимости в них, которые другие модели раньше не видели. А пишет он код качественнее, чем Claude.
И пока еще самая лагающая модель...
Половина статьи - про то, как хорошо что gpt 5 теперь не может этого, этого и этого, ибо это не безопасно. Альтман - *** дегенерат. Про остальное уже сказали в ответах.
специально проверил на старом кейсе который 4.1, приятно удивив, прошел. 5 не смог! теряет контекст, память как у рыбки, очень тормозной, выходит за рамки условий (потому что так проще), галлюцинаций правда у него несколько меньше...
Ок. Ждём Клавдия Пятого.
Все, уже идем в доставку? Или еще нет?
Модель натренирована не просто писать код, а писать как персоналия - она учтет стиль кода в котором он написан и будет генерировать код в таком же стиле.
Т. е., "уважаемый вайб-кодер, теперь твой г-код останется г-кодом, приношу извинения за возможные неудобства".
Еще больше цензуры в нейронке! И она теперь ещё хитрее сделана, чтобы вы никак не смогли обойти ограничения! Так победим!
Эта цензура как раз сильно отупляет модельку, причем сходу и не поймешь. Так что да, все признаки. Моделька может быть больше, ресурсов выделено больше, но если она прошла жесткое выравнивание по "тому-о-чем-нельзя-говорить" , то она превращается в тупого болванчика.
Еще и еще раз можно увидеть примеры, что оно ведет себя как человек. Потому что муштрой и запретами можно сделать "среднего человека", но ученого, гения, изобретателя - никогда.
Ну а что - сделали по образу и подобию своему)
ммм... х*ета

Протестировал, редкостный порожняк. Попросил проанализировать скрипт, добавить пару фич. В ответ он его урезал раз в 10, превратил в бесполезный хлам.
Клод намного лучше, но эти жлобские лимиты огорчают
Так вот моя оценка GPT5 - говно
Мало того что судя по всему - модель маленькая
Это можно судить по некоторым факторам,
такие как:
- высокая скорость
- низкая цена
- неглубокие ответы, а скорее широкие
Так она ещё и ограничена в количестве запросов,
Их стало значительно меньше, на подписке plus
Как по мне GPT5 это полный аналог GPT4o, только с обновленным датасетом (данные на которых обучали)
и модулем размышлений, который работает намного хуже, чем у предыдущих моделей с модулем размышления такие как о1, о3
как и говорили разработчики датасет отлизан вдоль и поперек, поэтому кажется, что модель крутая, на самом деле она крутая - только в стандартных, ШАБЛОННЫХ вопросах.
Модель, не способна глубоко проанализировать код, как скорее всего и любой вопрос, она старается находить то что на поверхности и уже работает и это исправлять, тем самым ещё больше ломая то что уже работает.
Сэм Альтман - главная шишка этой шаражкиной конторы, видимо захотел заработать, урезав всё и выпустив дешевую какашку на всеобщее обозрение, заполучив хайп.
Напомню, что топовые модели, такие как
gpt4o - модель для простых или модульных вопросов o3 - худший аналог предыдущей версии о1 ( думающая линейка для сложных вопросов) * И многие другие
были заменены на модель намного хуже чем они сами, не считая gpt4o (тут все таки новые данные плюс)
И я вам теперь так скажу, видимо ничего лучше чем о1, которую сразу же убрали когда то давно, компания OpenAI не выпустит в ближайший год.
теперь надо переходить на gemini 2.5 pro, которая единственная из всех доступных сейчас моделей была почти на уровне о1.
По первому небольшому опыту понравилось:
Отвечает более структурировано и информативно, Но более человечно, в сравнении с о3
Очень сильная персонализация. В новой теме приводит примеры из областей и конкретных ситуаций, которые обсуждались ранее
Очень быстро работает
Пока делать выводы рано, посмотрим на практику.
Тоже решил вчера потестировать новую модель на задаче: если у кружки отрезать дно и забрать верх, то как из нее можно пить?

Фулл версия: https://chatgpt.com/share/6896088d-a37c-8004-8cb1-a26dfea26648
Сегодня впервые протестировал Codex CLI. Есть специально уязвимый проект на PHP с примерно 900+ файлов .php и ~70-ю уязвимостями. Где-то 130000 строк в сумме. Нужно логику оставить такой же, чтобы уязвимости не испарились, но перераспредилить код так, чтобы в итоге эти 130000 строк были в 20 файлах. Заняло минуту, уязвимости не испарились. Код выглядит, в целом, нормально (правда, каждый файл 6000+ строк, и для задачи не нужно, чтобы он работал), но заметил косяк в виде встроенного HTML без должного оформления тегами `?> ... <!-- HTML -->... <?php`. Конкретно для рабочей задачи Кодекс отработал шикарно, но заменить программиста, похоже, всё ещё не может.
GPT-5: самая безопасная, умная и масштабируемая модель от OpenAI