Pull to refresh
1
Александр@Altair2021

Пользователь

0,1
Rating
Send message

Прорыв ИИ в науке: GPT-5.4 Pro (xhigh) поднял точность решений по физике на 233% за 4 месяца

Какая нейросетка вам заголовки сочиняет? По смыслу данного заголовка, gpt-5.4-pro-xhigh 4 месяца усердно трудился, чтобы поднять точность решений по физике на 233%. Что невозможно, так как модели отроду неделя.

Кроме того, почему выкинули gemini-3.1, которая более новая? Почему сравнивать с 3.0 4хмесячной давности? Чтобы циферки получше казались?

А также, в бенчмарке не видно gpt-5.2-pro, gpt-5-pro. С учётом цены Pro было бы логично привести предыдущие флагманы. Типа, логично, что Pro версия будет лучше обычной. А не для Pro прирост будет скромнее -- всего ~120% относительно модели 4хмесячной давности, и скромные 3% относительно gemini-3.1.

А вот это очень сомнительно. Весь инет -- это да, но весь инет суть набор данных с примесью мусора. Как именно происходит предобработка этого набора данных (отбор именно хороших данных, а не мусора) для каждой модели -- вопрос открытый. Каждый создатель llm делает это по-своему, с нужными акцентами. Так что нельзя говорить, что обучающая выборка у всех одинакова.

И таки это поведение заложено создателями модели (claude adaptive thinking) -- модель сама решает, нужно ли ей "думать" и сколько.

а представьте, какой будет список, когда выпустят deepseek v4 (или какой там следующий) ))

а представьте, какой будет список, когда выпустят deepseek v4 (или какой там следующий) ))

Нейронка не может знать, сколько человек ее используют) Тут скорее когда модель публикуют, она недотьюнена. И в первое время после выкатки разрабы докручивают характеристики (системный промпт, температуру и тп)

типа сравнения двух таблиц с выводом номеров строк при обнаружении совпадений (по факту немного усложненное ВПР), ни одна не справилась нормально

использование LLM в данной задаче, в принципе, аналогично использованию их в качестве калькулятора -- то же самое забивание гвоздей микроскопом. Они под это в принципе не заточены. Если нужен какой-то детерминированный ответ/ответ на основе четкого алгоритма, то LLM не шибко подходят.

Пробовал консультироваться по импортной документации - пишут ерунду сразу, не понимают контекста сколько бы я не улучшал промт.

Тут довольно тонкая грань: если документация большая, она банально может не влезть в контекст LLM. А если влезет -- хорошо известна проблема падения понимания LLM с увеличением контекста.

gpt 5.2 уровни ризонинга:

  • Low

  • Medium

  • High

  • Extra high

++ Extreme high))

И в чем, интересно, разница между high/extra high/extreme high?)) И что потом? Ulta high? Extreme ultra high? Impossible high?

Почему это работает?

Для такого короткого текста нужна llm'ка?

В последнее время триггерит с этих "why it works", когда вообще не "works"

Тоже Германия, не работает. Как я понимаю, гугл может опираться на то, где и когда был зарегистрирован акк. В том числе учитывает номер телефона.

Не показательно, только если не отключить у модели ризонинг. Иначе она может наризонить/нагаллюционировать на сотни-тысячи токенов. Кроме того, у разных моделей разные токенизаторы, и один и тот же текст может занимать разное количество токенов. Например, у клода токены мельче, чем у дипсика.

А можно примеры таких агрегаторов? Сам пользуюсь ботхабом около года по апи -- на момент выбора их условия были самыми выгодными. Доп рубль через апи не снимается (через апи чисто доступ к моделям, а в веб версии еще куча прибамбасов).

А по какому курсу конвертировали цену опенроутера в рубли?) Там, насколько я помню, все в долларах

А можно выбрать сервис типа openrouter.ai, и не зависеть от впс (по крайней мере пока), не быть привязанным только к моделям опенаи.

Касаемо json: есть такая штука как structured_output.

Касаемо таймаута: можно использовать потоковую генерацию (stream=True) -- тогда не нужно ждать, пока модель вернёт ответ целиком, можно сохранить даже частичный ответ в случае обрыва соединения.

Как насчёт привести количество входных и выходных токенов на каждый из вариантов? Мб в варианте с опенроутера модель сгенерировала 100 токенов, а в варианте с ботхаба -- 1000? (Условные цифры)

Не подскажете, как сделать так, чтобы гугл через впн не говорил, что сервис "недоступен в вашей стране"?

Большинство бесплатных моделей с опенроутера недоступны( А те, которые тестируют, предоставляя бесплатный доступ, обычно быстро закрывают

Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-скрепки?)

Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-термометр?)

Дык речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи

Information

Rating
3,373-rd
Location
Россия
Registered
Activity