ruslandevlabs 22 авг в 11:40

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

5 мин

8.5K

Искусственный интеллектМашинное обучение *

+13

Комментарии 22

S-type 22 авг в 14:01

Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных их технических документов,

Опечатка? Может надо из?

Natsuru 22 авг в 14:08

Да и абзац:

OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.

Два раза подряд

ruslandevlabs 23 авг в 12:56

да, спасибо исправил

AlexeyPolunin 22 авг в 14:52

Ну GP-5 T лучше чем o4-mini. С той у меня не получалось добиться стабильных результатов, пятерка обрабатывает как надо. Дипсику R1 далеко.

ruslandevlabs 23 авг в 12:57

Видимо от задачи к задаче качество разное

Politura 22 авг в 15:04

Краткое напоминание формулы:

Где вы нашли эту формулу? Ни поиском в интернете, ни поиском по Хабру я ее не нашел.

где:
N — количество параметров модели,
D — объем обучающих данных,
C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),
L — ошибка,

С зависит исключительно от N и D; L - какая именно ошибка? Ошибка чего?

Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества

А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?

proxy3d 22 авг в 16:22

Тоже удивился. Даже эмпермически такой формулы нет. Такие формулы любят генерировать сетки, замечал такое. Связывая лишь бы связать, без доказательства, без эвристики. Так что формулу просто сгенерировала сетка и даже возможно "обосновала" ее правильность. А так да, к реальности формула не имеет отношения.

SnakeSolid 22 авг в 18:02

Я не автор, но недавно читал статью Scaling Laws for Neural Language Models, там упоминается похожая формула. Возможно у нее есть продолжение с пересчетом на затраченные ресурсы, но я про него не слышал.

ruslandevlabs 23 авг в 13:32

Да, это оттуда. В других местах, которые я читал, типа этого ее несколько обобщают. Но при каких условиях она отражает реальную зависимость, а при каких нет - особенно на масштабах, сопоставимых с GPT-5 - явно не хватает эмпирических данных.

proxy3d 25 авг в 09:17

Автору бы сразу так надо было привести ссылку. Не встречал ранее такой формулы и не видел статьи. Но в таком толковании становится более понятно. Тот же Loss отражает суммарную перекрестную энтропию. А формулу, хоть и грубо и не точно, но отражает связь объема данных/ структуры данных (через ошибку)/ размер модели (выделение структуры). Пошел читать, откуда они ее получили, и как интерпретировали.

ruslandevlabs 23 авг в 13:24

Где вы нашли эту формулу?

В Kaplan, et al, 2020 Scaling Laws for Neural Language Models. В статье упоминается. Также в Википедии есть, добавил скриншот в статью. Формула там в следующем виде -
L = L0 + (X0/X)^alpha, т.е. L находится в прямо пропорциональной зависимости от X^-alpha, для каждой из величин C, N, D.
L - какая именно ошибка

L - какая именно ошибка

Loss

А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?

В статье речь о том, почему для GPT-5 не повысили качество путем масштабирования, если на предыдущих версиях это работало.

eeglab 22 авг в 16:28

С чего вдруг провалился? По моему сейчас топовая модель - галлюцинаций на порядок меньше, качество и содержание ответов намного лучше чем у o3 и o4 mini hight. Увеличили контентное окно до более менее приемлемого уровня. Лимиты запросов на pro 3000 в неделю - практически не ограниченые. В математике вообще нет равных. В качестве ассистента gpt5 однозначно очень сильно оторвался от конкурентов.

ruslandevlabs 23 авг в 14:18

Просто если вспомнить общие прогнозы что GPT-5 будет настолько точнее, умнее, вообще на другом уровне, что я лично думал с ней мы вообще забудем про галлюцинации и про то, что ИИ не может правильно связать чуть более сложные факты и логику. Думал может архитектуру новую создали, по сравнению с которой стандартный трансформер будет как LSTM сравнить с тем же трансформером. А на деле она здесь получше, а там такая же осталось, т.е. на ряде доменов дали побольше данных, автоматизировали переключение между reasoning - не-reasoning, остальное чисто UX улучшения в самом ChatGPT.

Qoragar 23 авг в 15:09

С чего вдруг провалился? По моему сейчас топовая модель - галлюцинаций на порядок меньше, качество и содержание ответов намного лучше чем у o3 и o4 mini hight.

Какие минусы (в сравнении с 4o) заметил конкретно на своих сценариях:

• В ответах стало гораздо больше "воды";

• Стал постоянно "переспрашивать-уточнять", даже если тезис прямо следовал из моего предыдущего промпта-ответа;

• Стало больше какой-то "рассеянности". Порой в упор не замечает даже явных указаний в промпте.

• В целом почему-то ухудшилось качество конкретно языкового модуля – больше ошибок (особенно при использовании веб-поиска вообще улетает в дикие языковые глюки), изложение в целом менее живое и более "сухо-канцелярское";

• Субъективное ощущение, но в целом стал допускать больше ошибок (порой приходится явно указывать на логические нестыковки в разных частях ответа, извиняется и поправляется). И хорошо ещё, когда сам владеешь темой – но для стороннего юзера это может быть довольно опасно;

• Также субъективное ощущение, но в целом стал гораздо более "тупее". На примере прописанных кастомных правил (в памяти) – теперь зачем-то вставляет упоминания про них почти в каждый ответ (условно вида: "Этот мой ответ строго на основании фактов и без использования источников категории X, как вы любите"))). Дополнительное кастомное правило (не упоминать про ~~бойцовский клуб~~ кастомные правила) – никак не помогло;

• Из плюсов – действительно почти убрали прошлый "щенячий восторг" и постоянную адскую лесть юзеру. 😁

Вот как-то так.

Повторю, это конкретно в моих сценариях. Хотя с техническими запросами справляется лучше (судя и по собственному опыту, и по отзывам).

P.S. Но самая главная подляна в том, что даже не дают переключиться на "старую-добрую" 4o (которая устраивала меня почти полностью). Теперь вообще никак.

eeglab 25 авг в 03:41

Может в бесплатной версии нельзя переключиться, но в pro в настройках можно включить устаревшие модели , в том числе и 4о (понимаю, что на вкус и цвет все фломастеры разные, но если просто поболтать то grok намного лучше, а именно как ассистент - chatgpt 5 thinking - сухие подробные ответы со ссылками самое то, 4о почти не использовал , так как была модель о3).

Qoragar 25 авг в 14:39

если просто поболтать то grok намного лучше

У Грока другая крайность – слишком болтлив, собака. И, кстати, пафоса и лести у него тоже гораздо больше. ))

P.S. Тем более, что мои сценарии не "просто поболтать". Просто не всегда это конкретно технические задачи.

Oleg-AC 22 авг в 18:28

Много умных букаф, только есть 2 момента:

У меня было несколько "неразрешимых" технических задач, которые не мог решить ни на каких версиях 4, а новая помогла решить "с первого прохода". Т.е., просто, оказалась "на голову" выше. Но это лишь личный опыт.
А сам OpenAI говорит (легко ищется), что "да, релиз неудачный", но доходы существенно выросли. Т.е., просто, играют "на публику некомпетентных пользователей", коих у ChatGPT большинство, обеспечивающее доход.

ruslandevlabs 23 авг в 14:22

Оно конечно хорошо, что на части задач - типа математики, кодинга и, говорят, медицины - GPT-5 доучили. Но вот на feature-extraction нет прироста, а это большой домен в практическом смысле. Нет равномерного роста качества по всем направлениям, как хотелось.

thethee 23 авг в 04:10

GPT-5 размером чуть ли не меньше GPT-4 и при этом на порядок умнее. GPT-4.5, первый кандидат на звание пятерки был в несколько раз больше выпущенной GPT-5. Sam Altman говорил, что у них сейчас нет ресурсов для запуска в прод огромных, моделей, и он считает это одной из причин почему GPT-5 пришлось сделать такой маленькой. Но из плюсов он же назвал - получившуюся скорость при хорошем улучшении качества.

А с o4-mini-high даже не сравнивайте. По бенчмаркам чуть ли не лучшая модель для кодинга, только все кто имел возможность сравнить с sonnet 3.5/3.7/4 и потом уже gpt-5 плевались от её кода вне зависимости от того сколькими промптами обвешаться. Единственный ее плюс был в скорости работы. Может быстрее придумывать несуществующие библиотеки и быстрее читерить в написании тестов и обходить их условия вместо реальной починки.

thethee 23 авг в 04:12

P.S. в том же разговоре он упоминает инвестиции в триллионы и запуск датацентров с миллионом графических ускорителей. Так что ждём GPT 5.5 большего размера

rutexd 23 авг в 11:33

Почему провалился? Потому что удишевляют все. Первые самые модели были намного умнее. Перспективы? Смотря что для вас перспектива, но в целом мы уже у лимита.

VNAg 24 авг в 07:02

У меня есть предположение, что очень большой размер модели может быть на самом деле не нужен для хорошей точности. Сейчас большие модели для качественной генерации вынуждены получать именно из-за того, что необходимые данные для обучения - плохо структурированные, разрозненные человеческие тексты. Чтобы извлечь из них необходимые паттерны и построить модель, нужно очень много параметров и очень много переборов вариантов как их оптимально сложить друг с другом. Если же использовать правильную синтетику, можно добиться сходимости за значительно (на порядки) меньшее число итераций и получить точность в какой-то специальной области при также на порядки меньшем числе параметров модели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий