Pull to refresh

Comments 17

Что-то неправдой попахивает. Судя по тому как торопливо OpenAI перевела всех пользователей, в том числе бесплатных, на GPT-5 - новые модели заметно экономнее старых, за исключением возможно топовой Gpt-5-high, которая даже платным пользователям недоступна просто так.
Ну и опять же по косвенным признакам - большинство новых моделей это MoE с большим количеством небольших экспертов.

Речь про GPT 5 - high, которая рвёт всех в тестах, но пользователю предоставляется исключительно редко, даже на дорогих тарифах

Из текста этого не следует. В тексте вообще не звучит название модели и говорится о GPT-5. А это вообще не модель, а комплекс моделей объединенных роутером.

Зато есть таблица, в которой видно что разные ГПТ-5 жрут по разному. С разницей между собой на порядок

Зато в рейтингах lmarena теперь в явном виде пишут GPT 5 high

Ток она и заточена чтобы рвать тесты. На практике во многих задачах она не лучше других или хуже

Не знаю, мне не везёт на задачах или gpt-5 как комплекс заточен под житейские вопросы вроде как мне жить и в какой фазе луны воздействие Меркурия положительно скажется на финансах. В моих задачах gpt-5 на всех режимах (включая рассуждающие) превратился в какое-то дно. Стараюсь все реже его использовать теперь.

Это только у меня так (много математических задач, проверок теорем, нестандартные задачи для кода)? Или у кого то он тоже на задачах сильно просел? Приходится использовать deepseek, Gemini, qwen. (Grok 4 тоже делает то херово то средне).

У кого другая статистика, где у кого-то gpt-5 и grok показали наоборот более качественные результаты?

Gpt 5 Thinking по ощущениям лучше о3, которая по моему мнению хуже о1, то есть Thinking это что то среднее и оптимизированное на уровне Gemini 2.5 pro, o1

Но зависит от задач. Для глубоких конечно gpt 5 thinking уступает.

Gpt 5 pro возможно куда лучше.

У вас он не теряет контекст? у меня он теряет контекст уже последних сообщений и суммирует только последнее, игнорируя вклад прежних (часто такое замечаю) у Gpt 5 Thinking и Gpt 5 Thinking-mini. При чем делает это рандомно, то захватывает (вроде), но чаще нет. Хуже еще то, что он порой игнорирует последнее сообщение и словно продолжает мысль предпоследнего (пока не понял как с этим бороться).
У меня получается каждый раз рандомный результат по качеству. Без Thinking вообще выдает ерунду полную, типа да это теорема без нормальных разборов доказательства, но иногда разбирает. Получается какая-то рулетка.

И еще, появились орфографические опечатки в словах, чего раньше не наблюдалось. И сокращения слов в перемешку с английскими словами.

Мне кажется, что основная рабочая нагрузка в современных LLM идёт на обеспечение цензуры. То есть получается скорее не LLM с цензурой, а система цензуры с прикрученной LLM.
Конечно, это субъективное мнение, и, скорее всего, ошибочное. Но всё же.

Отжирает часть? Вполне вероятно
Основная рабочая нагрузка? Вот тут уже сильно сомневаюсь

Куда больше энергии жрёт простыня текста из раза в раз. И когда люди буквально целыми днями проводят с чатом, ещё и закидывая кучу контекста (например, аналитик в своей работе)

Не верю, сумасшедший рост потребления, если переводить всех платных и бесплатных пользователей. Где-то в расчётах ошибка

Релиз получился максимально скомканным. По крайней мере через Perplexity Claude 4 работает гораздо быстрее и лучше, для кода уж точно. Возможно главный прорыв именно в устранении галлюцинаций, но в целом если она начинает нести бред, я новый диалог начинаю с другим промтом.

Подобная конфигурация, возможно, снижает энергопотребление БЯМ.

Этот мазохизм в виде БЯМ умышленно был сделан или переводчик постарался? Минуту сидел угадывал что это. Оказалась большая языковая модель. LLM

Это уже устойчивое выражение, сейчас так часто пишут. На русский так и будет, БЯМ.

Хотя мы читаем сразу [б-я-м] , думаю будет понятнее если будем читать [бэ-я-эм], или хотя бы [бэ-ям].

Sign up to leave a comment.

Other news