Прорыв ИИ в науке: GPT-5.4 Pro (xhigh) поднял точность решений по физике на 233% за 4 месяца
Какая нейросетка вам заголовки сочиняет? По смыслу данного заголовка, gpt-5.4-pro-xhigh 4 месяца усердно трудился, чтобы поднять точность решений по физике на 233%. Что невозможно, так как модели отроду неделя.
Кроме того, почему выкинули gemini-3.1, которая более новая? Почему сравнивать с 3.0 4хмесячной давности? Чтобы циферки получше казались?
А также, в бенчмарке не видно gpt-5.2-pro, gpt-5-pro. С учётом цены Pro было бы логично привести предыдущие флагманы. Типа, логично, что Pro версия будет лучше обычной. А не для Pro прирост будет скромнее -- всего ~120% относительно модели 4хмесячной давности, и скромные 3% относительно gemini-3.1.
А вот это очень сомнительно. Весь инет -- это да, но весь инет суть набор данных с примесью мусора. Как именно происходит предобработка этого набора данных (отбор именно хороших данных, а не мусора) для каждой модели -- вопрос открытый. Каждый создатель llm делает это по-своему, с нужными акцентами. Так что нельзя говорить, что обучающая выборка у всех одинакова.
Нейронка не может знать, сколько человек ее используют) Тут скорее когда модель публикуют, она недотьюнена. И в первое время после выкатки разрабы докручивают характеристики (системный промпт, температуру и тп)
типа сравнения двух таблиц с выводом номеров строк при обнаружении совпадений (по факту немного усложненное ВПР), ни одна не справилась нормально
использование LLM в данной задаче, в принципе, аналогично использованию их в качестве калькулятора -- то же самое забивание гвоздей микроскопом. Они под это в принципе не заточены. Если нужен какой-то детерминированный ответ/ответ на основе четкого алгоритма, то LLM не шибко подходят.
Пробовал консультироваться по импортной документации - пишут ерунду сразу, не понимают контекста сколько бы я не улучшал промт.
Тут довольно тонкая грань: если документация большая, она банально может не влезть в контекст LLM. А если влезет -- хорошо известна проблема падения понимания LLM с увеличением контекста.
Не показательно, только если не отключить у модели ризонинг. Иначе она может наризонить/нагаллюционировать на сотни-тысячи токенов. Кроме того, у разных моделей разные токенизаторы, и один и тот же текст может занимать разное количество токенов. Например, у клода токены мельче, чем у дипсика.
А можно примеры таких агрегаторов? Сам пользуюсь ботхабом около года по апи -- на момент выбора их условия были самыми выгодными. Доп рубль через апи не снимается (через апи чисто доступ к моделям, а в веб версии еще куча прибамбасов).
А можно выбрать сервис типа openrouter.ai, и не зависеть от впс (по крайней мере пока), не быть привязанным только к моделям опенаи.
Касаемо json: есть такая штука как structured_output.
Касаемо таймаута: можно использовать потоковую генерацию (stream=True) -- тогда не нужно ждать, пока модель вернёт ответ целиком, можно сохранить даже частичный ответ в случае обрыва соединения.
Как насчёт привести количество входных и выходных токенов на каждый из вариантов? Мб в варианте с опенроутера модель сгенерировала 100 токенов, а в варианте с ботхаба -- 1000? (Условные цифры)
Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-скрепки?)
Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-термометр?)
Какая нейросетка вам заголовки сочиняет? По смыслу данного заголовка, gpt-5.4-pro-xhigh 4 месяца усердно трудился, чтобы поднять точность решений по физике на 233%. Что невозможно, так как модели отроду неделя.
Кроме того, почему выкинули gemini-3.1, которая более новая? Почему сравнивать с 3.0 4хмесячной давности? Чтобы циферки получше казались?
А также, в бенчмарке не видно gpt-5.2-pro, gpt-5-pro. С учётом цены Pro было бы логично привести предыдущие флагманы. Типа, логично, что Pro версия будет лучше обычной. А не для Pro прирост будет скромнее -- всего ~120% относительно модели 4хмесячной давности, и скромные 3% относительно gemini-3.1.
А вот это очень сомнительно. Весь инет -- это да, но весь инет суть набор данных с примесью мусора. Как именно происходит предобработка этого набора данных (отбор именно хороших данных, а не мусора) для каждой модели -- вопрос открытый. Каждый создатель llm делает это по-своему, с нужными акцентами. Так что нельзя говорить, что обучающая выборка у всех одинакова.
И таки это поведение заложено создателями модели (claude adaptive thinking) -- модель сама решает, нужно ли ей "думать" и сколько.
а представьте, какой будет список, когда выпустят deepseek v4 (или какой там следующий) ))
а представьте, какой будет список, когда выпустят deepseek v4 (или какой там следующий) ))
Нейронка не может знать, сколько человек ее используют) Тут скорее когда модель публикуют, она недотьюнена. И в первое время после выкатки разрабы докручивают характеристики (системный промпт, температуру и тп)
использование LLM в данной задаче, в принципе, аналогично использованию их в качестве калькулятора -- то же самое забивание гвоздей микроскопом. Они под это в принципе не заточены. Если нужен какой-то детерминированный ответ/ответ на основе четкого алгоритма, то LLM не шибко подходят.
Тут довольно тонкая грань: если документация большая, она банально может не влезть в контекст LLM. А если влезет -- хорошо известна проблема падения понимания LLM с увеличением контекста.
gpt 5.2 уровни ризонинга:
Low
Medium
High
Extra high
++ Extreme high))
И в чем, интересно, разница между high/extra high/extreme high?)) И что потом? Ulta high? Extreme ultra high? Impossible high?
Для такого короткого текста нужна llm'ка?
В последнее время триггерит с этих "why it works", когда вообще не "works"
Тоже Германия, не работает. Как я понимаю, гугл может опираться на то, где и когда был зарегистрирован акк. В том числе учитывает номер телефона.
Не показательно, только если не отключить у модели ризонинг. Иначе она может наризонить/нагаллюционировать на сотни-тысячи токенов. Кроме того, у разных моделей разные токенизаторы, и один и тот же текст может занимать разное количество токенов. Например, у клода токены мельче, чем у дипсика.
А можно примеры таких агрегаторов? Сам пользуюсь ботхабом около года по апи -- на момент выбора их условия были самыми выгодными. Доп рубль через апи не снимается (через апи чисто доступ к моделям, а в веб версии еще куча прибамбасов).
А по какому курсу конвертировали цену опенроутера в рубли?) Там, насколько я помню, все в долларах
А можно выбрать сервис типа openrouter.ai, и не зависеть от впс (по крайней мере пока), не быть привязанным только к моделям опенаи.
Касаемо json: есть такая штука как structured_output.
Касаемо таймаута: можно использовать потоковую генерацию (stream=True) -- тогда не нужно ждать, пока модель вернёт ответ целиком, можно сохранить даже частичный ответ в случае обрыва соединения.
Как насчёт привести количество входных и выходных токенов на каждый из вариантов? Мб в варианте с опенроутера модель сгенерировала 100 токенов, а в варианте с ботхаба -- 1000? (Условные цифры)
Не подскажете, как сделать так, чтобы гугл через впн не говорил, что сервис "недоступен в вашей стране"?
Большинство бесплатных моделей с опенроутера недоступны( А те, которые тестируют, предоставляя бесплатный доступ, обычно быстро закрывают
Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-скрепки?)
Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-термометр?)
Дык речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи