runaway_llm Jul 1 at 18:37

ChatGPT o3 оказалась лучшей ИИ-моделью для ответов на вопросы ученых

1 min

5.3K

Artificial IntelligenceMachine learning *

Comments 66

Arastas Jul 1 at 20:08

Я путаюсь в номерах. Это рассуждающий deepseek?

runaway_llm Jul 1 at 20:21

Нет, у DeepSeek две версии: V3 без рассуждений, а R1 рассуждающая. R1 тоже неплохие результаты показал.

Politura Jul 1 at 22:45

R1-0528 из статьи да, рассуждающая R1, обновленная 28 мая.

Wesha Jul 1 at 20:35

ChatGPT o3 оказалась лучшей ИИ‑моделью для ответов на вопросы ученых

Не могу не отметить, что везде говорится про «ответы», но нигде не говорится про «правильные ответы».

Robastik Jul 1 at 23:08

Не могу не отметить, что в научном поиске критерии правильности субъективны.

Wesha Jul 1 at 23:20

что в научном поиске критерии правильности субъективны.

Да что ви такое говорите. Если согласно теории X должно делать Y, а в эксперименте — не делает, то чего тут субъективного?

Robastik Jul 2 at 00:53

Поинтересуйтесь чем-нибудь конкретным. Например, погуглите "стволовые клетки", эксперименты по ним за 30 лет, и почему нет ни повторяемого результата, ни опровержения теории.
Или что-нибудь попроще. Например, как так вышло, что при всей мощи экономической науки, ни один экономический прогноз российского правительства не сбылся. Почему все закупленные на десятки миллиардов рублей Минздравом РФ лекарства от ковида признаны ВОЗ бесполезными (в лучшем случае).
Порефлексируйте о том, почему правильные академики борются с неправильными политическими методами, а не научными фактами.
Выпишите список 10 научных фактов, которые никогда не подвергались сомнению.
Ви таки обнаружите, что научный факт - это не более, чем советский миф.

Goron_Dekar Jul 2 at 01:25

Ой, всё!

А давайте гораздо более простой пример: после обработки BsmBI + DpnI рестриктазами ПЦР смеси с данными праймерами и данной плазмидой, что за продукт.

Wesha Jul 2 at 06:19

Ну вот зачем Вы страуса пугаете? Пол-то бетонный...

Politura Jul 2 at 01:27

Почему все закупленные на десятки миллиардов рублей Минздравом РФ лекарства от ковида признаны ВОЗ бесполезными (в лучшем случае).

Почему вы так решили? Понятно, что во времена ковида все было переполнено пропагандой с разных сторон, но сейчас даже ЧатГПТ, обучающийся в основном на западных источниках считает это утверждение ложным:

Не все препараты оказались бесполезными — часть (глюкокортикоиды, моноклональные антитела, вакцины) доказала эффективность.
Однако значительная доля закупок пришлась на препараты с недоказанной или доказанно отсутствующей эффективностью, которым ВОЗ официально рекомендовала не пользоваться.

Robastik Jul 2 at 02:51

Потому что речь о медицинской науке, которая должна была дать ответ здесь и сейчас, то есть в острой фазе пандемии и для широкого применения, а не приведенные вами примеры - спустя 1,5 - 2 года и для избранных.

Wesha Jul 2 at 01:30

экономической
науки

Вы бы ещё про астрологию чего-нибудь спросили.

eimrine Jul 2 at 05:04

Выпишите список 10 научных фактов, которые никогда не подвергались сомнению.

Параллельные прямые не пересекаются (одна из аксиом Эвклида).
Теорема Пифагора.
Радиус Земли по Эратосфену = 6287км (специально хотелось добавить что-то устаревшее) .
1 + 1 = 2 (кстати, есть частичное доказательство этого факта в котором фигурирует не настоящая полиморфная единица, а так называемая ординарная).
Существование отрицательных чисел и нуля.
Планеты и Земля вращаются вокруг Солнца (кстати, этот факт сомнению подвергался много веков кряду - только кем?)
Материки на планете Земля - не статичные, а плавающие (трагедия Вегенера, над этим утверждением перестали смеяться только после смерти Вегенера и появления сонаров).
Количество свинца в атмосфере в данный момент - не природное, а антропогенное (лучи добра учёному по имени Клэр Паттерсон благодаря которому на баке вашего автомобиля есть наклейка с запретом лить этилированное топливо).
Решённая гипотеза Пуанкаре-Перельмана, вторым номером в этот пункт пусть будет решённая но пока что никем кроме автора решения ещё не понятая abc-гипотеза.
Трансцендентность числа π.

Wesha Jul 2 at 05:24

Параллельные прямые на плоскости не пересекаются (одна из аксиом Эвклида).

There, Лобачевский FTFY.

Планеты и Земля вращаются вокруг Солнца

А вот и неправда

На Самом Деле™ все небесные тела обращаются вокруг центра масс Солнечной системы — который обычно располагается внутри Солнца, но

так бывает не всегда (слава Юпитеру!)

Kanut Jul 2 at 05:30

Параллельные прямые не пересекаются

Аксиома это не факт. Это утверждение, которое принимается без доказательств. Вспомните про геометрию Лобачевского например.

И большинство остальных ваших фактов тоже не 100% верны. Теорема Пифагора работает тоже не в любой геометрии. В двоичном счислении 1+1 не будет 2. Земля не идеальный шар. И так далее и тому подобное.

eimrine Jul 2 at 11:17

С аксиомами и с центром масс я сплоховал, но про "большинство" говорить рано. Теорема Пифагора, например, сама себя ограничивает планиметрией. В двоичном счислении будет 2, выраженное в двоичном счислении.

И так далее и тому подобное.

Это отсылка на высказывание предыдущего оратора? Я выдумывал факты чтобы увидеть куда пойдёт его мысль.

Kanut Jul 2 at 11:23

Теорема Пифагора, например, сама себя ограничивает планиметрией

Грубо говоря теорема Пифагора существует только в евклидовой геометрии. Поэтому она не может быть фактом, который всегда истинен.

В двоичном счислении будет 2, выраженное в двоичном счислении.

Вы написали "1+1=2". В двоичном исчислении эта запись не имеет смысла.

Я выдумывал факты чтобы увидеть куда пойдёт его мысль.

Ну так в том то и дело что ваши факты не являются абсолютными фактами. Они верны только в определённом контексте и/или при определённых условиях.

Более того вас просили привести факты "которые никогда не подвергались сомнению". И ваши факты таковыми не являются.

eimrine Jul 2 at 11:38

Ну так в том то и дело что ваши факты не являются абсолютными фактами. Они верны только в определённом контексте и/или при определённых условиях.

Ну и что? Мысль-то куда идёт?

Более того вас просили привести факты "которые никогда не подвергались сомнению". И ваши факты таковыми не являются.

Мои факты таковыми не являются по какой причине? Кроме неубедительного пассажа про абсолютность.

Kanut Jul 2 at 11:40

Ну и что? Мысль-то куда идёт?

В сторону того что вы не привели факты которые никогда не подвергались сомнению.

Мои факты таковыми не являются по какой причине?

Например по причине того что выше я их "подвёрг сомнению" и даже объяснил почему я это сделал :)

eimrine Jul 2 at 11:53

Вашу мысль я примерно понял так: из события одного вторника когда ОБС усомнилась в том факте что американцы были на Луне следует, что посещения американцами Луны - сомнительный факт, ведь сомнение это такая эмоция которую может проявить кто угодно. Например, по причине желания увидеть двоичную систему в высказывании "1 + 1 = 2".

Я-то думал что "сомнение" это когда в космическую эру группа инженеров разработала дорогую приблуду специально для того чтобы уточнить оченку Эратосфена насчёт длинны окружности Земли.

В сторону того что вы не привели факты которые никогда не подвергались сомнению.

Ну, и куда нас привела мысль, с учётом высказывания предыдущего оратора? Получается, что если я сижу за закрытой дверью то я не могу быть уверенным в том что за дверью - не пропасть? Какое-то неинтересное размышление получилось.

Kanut Jul 2 at 11:58

Вашу мысль я примерно понял

Нет, вы её даже близко не поняли. Вас попросили привести факты, которые никогда не подвергались сомнению. Вы их не привели.

Часть фактов(например что Земля вращается вокруг Солнца) неоднократно подвергались сомнению в прошлом. В том числе и именитыми учёными того времени.

Часть фактов(например что параллельные прямые не пересекаются) не являются неоспоримыми фактами даже сейчас.

Получается, что если я сижу за закрытой дверью то я не могу быть уверенным в том что за дверью - не пропасть?

Абсолютно верно, не можете. Максимум вы можете предполагать это с очень высокой вероятностью.

eimrine Jul 2 at 12:35

Абсолютно верно, не можете. Максимум вы можете предполагать это с очень высокой вероятностью.

Какой смысл мне всего лишь "предполагать с высокой вероятностью" что у меня за непрозрачной дверью нету пропасти? Поможет ли мне это в жизни и/или в научном прогрессе?

Я понимаю зачем мне нужно пересчитать считать аксиому фактом - потому что я ошибся, написал ерунду о которой жалею и надеюсь что больше никто это не прочитает. С вашей мыслью пока что всё ещё не понятно куда эта мысль ведёт, какая её продуктивность.

Нет, вы её даже близко не поняли. Вас попросили привести факты, которые никогда не подвергались сомнению. Вы их не привели.

Здесь явно не хватает вашего определения слова "сомнение", почему вы до сих пор его не дали? Я дал аж 2 возможных определения, и пока что пребываю в уверенности что для вас "сомнение" таки эмоция не представляющая ни научного, ни философского интереса. Как вы можете читать мои слова, если есть вероятность что я допустил ошибки в 100% букв потраченных в этом топике.

Kanut Jul 2 at 12:41

Какой смысл мне всего лишь "предполагать с высокой вероятностью" что у меня за непрозрачной дверью нету пропасти? Поможет ли мне это в жизни и/или в научном прогрессе?

В научном прогрессе это как раз таки очень поможет. Потому что иначе никто никогда бы не ставил под сомнение что это именно Солнце вращается вокруг Земли.

Здесь явно не хватает вашего определения слова "сомнение", почему вы до сих пор его не дали?

А чем вас не устраивает общеприеятое? Чем вас не устраивают мои объяснения выше? Те самые про то, почему параллельные прямые не обязательно пересекаются, почему теорема Пифагора не все будет верна, почему 1+1 не всегда будет 2?

eimrine Jul 2 at 12:53

А чем вас не устраивает общеприеятое?

Тем что оно тут в этой ветке не написанно. Я не верю в существовании такого определения слова "сомнение" которое будет логически совместимо с тем что вы в этой ветке написали.

Те самые про то, почему параллельные прямые не обязательно пересекаются

Вы в курсе что вы отвечаете на сообщение в котором я повторно признал что мои взгляды на "факты" и "аксиомы" сегодня утром в одном комментарии были ошибочны? Если вам надо - я посыпаю голову пеплом в третий раз - я же был неправ про параллельные прямые и я каюсь всякий раз как мне это повторят.

В остальном я неправым не был.

Kanut Jul 2 at 12:59

Здесь явно не хватает вашего определения слова "сомнение", почему вы до сих пор его не дали?

"неуверенность в истинности чего-нибудь, отсутствие твердой веры в кого-нибудь"

В остальном я неправым не был.

Были. Если вы напишите "1+1=2" при обсуждении двоичного исчисления, то с вами не согласятся.

Если вы будете настаивать на истинности теоремы Пифагора при обсуждении геометрии Лобачевского, то с вами не согласятся.

То, что Земля вращается вокруг Солнца мало того что ставилось под сомнение, это вообще отрицалось очень долгое время.

И так и так далее и тому подобное.

eimrine Jul 2 at 13:15

"неуверенность в истинности чего-нибудь, отсутствие твердой веры в кого-нибудь"

То есть, по-вашему сомнение это ступор. ЧТД.

Kanut Jul 2 at 13:17

По моему сомнение это отсутствие уверенности. А какое у вас определение сомнения?

eimrine Jul 2 at 13:56

Поскольку вопрос предыдущего оратора был задан в рамках науки, то моё определение, в рамках которого я отвечаю на ваши примечания - научный скептицизм.

Философский - не предлагать, ведь при неправильном применении последнего результатом будет непримечательный продуктивностью ступор. Чья-та эмоция человека который делает вид что не понимает истинность факта "1 + 1 = 2" не делает оное утверждение сомнительным фактом для науки.

Чтобы чей-то ступор перестал быть эмоцией одного человека, этот ступор сначала должен дойти до научного консенсуса, вроде того случая когда теория относительности смога объяснить несостыковки в модели движения Меркурия и другие астрономические аномалии. Попытка найти аномалию в высказывании "1 + 1 = 2" научным скептицизмом и не пахнет, она пахнет софизмом.

Kanut Jul 2 at 14:05

то моё определение, в рамках которого я отвечаю на ваши примечания - научный скептицизм.

Какие из 10 ваших фактов сразу имели эмпирические доказательства? Ведь если это не так, то до появления этих доказательств они были под сомнением. Ну если следовать вашему определению.

Можете привести эмпирические доказательства для теоремы Пифагора в геометрии Лобачевского?

Чья-та эмоция человека который делает вид что не понимает истинность факта "1 + 1 = 2" не делает оное утверждение сомнительным фактом для науки.

Во первых вы до сих пор не понимаете что это утверждение не всегда является истинным.

А во вторых даже если брать его в контексте обычной алгебры, то вы уверены что это утверждение точно никогда и не кем не ставилось под сомнение? Ну или точнее вы в курсе что это было доказано только в конце XIX- начале XX веков?

eimrine Jul 2 at 14:26

Ведь если это не так, то до появления этих доказательств они были под сомнением.

Хорошая попытка, я оценил вашу самоотверженность в сфере софизма. Я даже завтра плюсону этот ваш коммент (когда плюсомёт перезарядится) за мысль что до становления некоего научного факта в научном консенсусе - существовало определённое время когда факт был сомнительным, вроде плавающие, а не статичные литосферные плиты при живом Вегенере и неизобретённом сонаре.

Это уже хорошее, годное применение философского скептицизма которого в обсуждении науки я просил не предлагать.

Kanut Jul 2 at 14:36

Хорошая попытка, я оценил вашу самоотверженность в сфере софизма

Ну это вы начали заниматься буквоедством и придираться к определениям :)

А если вернуться к истокам дискуссии, то какую-бы науку вы не взяли, но если начать копать, то выяснится что эта наука строится вокруг каких-то аксиом и/или теорий, которые могут быть опровергнуты со временем.Даже банальная арифметика имеет набор аксиом.

То есть тех самых действительно неопровержимых фактов на самом деле и не существует. И в принципе ничего ужасного в этом нет и в "прикладных" вопросах это можно игнорировать. Но никто не запрещает вам взять свой набор аксиом и придумать новую арифметику. И возможно она окажется лучше и все перейдут на неё. И точно так же возможно что в ней 1+1 не обязательно будет равняться 2. Хотя конечно такое и маловероятно.

Wesha Jul 2 at 15:42

Не нервничайте Вы так. У канутов особая, уличная логика, которая далеко не всегда стыкуется с логикой здорового человека.

Wesha Jul 2 at 13:05

Грубо говоря теорема Пифагора существует только в евклидовой геометрии.

Просто дяденька был недостаточно тщателен в формулировках — не учёл, что надо в обязательном порядке добавлять «...на плоскости».

Поэтому она не может быть фактом, который всегда истинен.

Он всегда истинен,

но есть нюанс:

он всегда истинен не где попало, а в еклидовой геометрии.

Kanut Jul 2 at 13:08

Есть у меня подозрение что если давать ИИ "достаточно тщательные" формулировки вопросов, то ИИ будет давать "достаточно правильные" ответы на эти вопросы :)

edo1h Jul 2 at 13:42

надо в обязательном порядке добавлять «...на плоскости»

Нет, это не равноценные утверждения. Во-первых, в евклидовой геометрии треугольник всегда на плоскости. Во-вторых, в геометрии Лобачевского, например, он тоже лежит на плоскости, но сумма углов меньше 180°, и теорема Пифагора не будет работать.

Если ли непротиворечивые геометрии, в которых треугольник необязательно лежит на плоскости, я без гугла не скажу

Wesha Jul 2 at 15:39

Во-вторых, в геометрии Лобачевского, например, он тоже лежит на плоскости

Авотнифига. Он лежит не на той плоской плоскости, которую мы все знаем и любим, а на особой~~, уличной магии~~ плоскости Лобачевского.

edo1h Jul 2 at 18:29

Не понял что вы этих хотите сказать. В трёхмерном пространстве из геометрии Лобачевского есть плоскости. Но они все не евклидовы, евклидовых плоскостей там нет.

Wesha Jul 2 at 19:34

В трёхмерном пространстве из геометрии Лобачевского есть плоскости. Но они все не евклидовы, евклидовых плоскостей там нет.

Это примерно вот так:

— У моей телеги есть колёса!
— А я не понимаю: почему нас так жутко трясёт???
— А, просто они квадратные!

Для плоских (евклидовых) плоскостей достаточно сказать слово «плоскости», и по умолчанию считается, что они евклидовы (примерно как колёса по умолчанию круглые). А вот плоскости Лобачевского уже надо особо обозначить.

edo1h Jul 2 at 10:06

Параллельные прямые не пересекаются (одна из аксиом Эвклида).

нет такой аксиомы, это просто определение параллельности прямых.

Wesha Jul 2 at 13:11

> Параллельные прямые не пересекаются (одна из аксиом Эвклида).
нет такой аксиомы

Кончайте ссориться, горячие эстонские парни — это постулат.

edo1h Jul 2 at 13:30

Да, есть постулат про параллельные прямые, он существует в нескольких формулировках, эквивалентность которых доказана, мне больше всего нравится «на плоскости через точку, не лежащую на прямой, можно перевести прямую, не пересекающую данную, при этом только одну».
Но это совсем не «параллельные прямые не пересекаются».

P.S. а если этот постулат отбросить, то можно получить непротиворечивую геометрию, что и показал Лобачевский

eimrine Jul 2 at 04:50

Если согласно теории X должно делать Y, а в эксперименте — не делает, то чего тут субъективного?

Это либо неправильно поставленный эксперимент (теория != гипотеза), либо крайне наблюдательный экспериментатор который открыл что-то совсем неожиданное типа того случая с открытием ИК излучения.

то чего тут субъективного?

Судя по линии мышления предыдущего оратора, субъективность в науке появляется когда предмет исследования не подчиняется критерию (фальсифицируемости) Поппера. Примеры: социальные "науки", или та же медицина, прогресс в которой систематически тормозится юриспруденцией.

Wesha Jul 2 at 05:37

неправильно поставленный эксперимент (теория != гипотеза)

Ну то есть по факту проверяем не Ту Самую Теорию, а какую-то НЕХ.

Kanut Jul 2 at 05:34

Если согласно теории X должно делать Y, а в эксперименте — не делает, то чего тут субъективного?

Ну например может быть что эксперимент ставят неправильно, а может быть что теория оказалась ошибочной.

И собственно ни одна научная теория по хорошему не может считаться истиной в последней инстанции и может быть опровергнута или как минимум изменена со временем.

Wesha Jul 2 at 05:41

может быть что эксперимент ставят неправильно

И именно поэтому нормальный экспериментатор не бежиит писать статью, а идёт и в 100 500-й раз перепроверяет свою установку — «а не накосячил ли я?»

а может быть что теория оказалась ошибочной.

А для этого есть правило пяти сигм.

Kanut Jul 2 at 05:43

а идёт и в 100 500-й раз перепроверяет свою установку — «а не накосячил ли я?»

Но "факт" того, почему эксперимент не удался, всё равно остаётся "субъективным".

Речь то не о том, что если эксперимент не удался, то это автоматически означает что теория не верна.

Речь о том, что никогда нельзя быть уверенным что теория на 100% верна.

Wesha Jul 2 at 06:01

Но "факт" того, почему эксперимент не удался, всё равно остаётся "субъективным".

«Почему» — это не факт, это объяснение факта. Которое, действительно, может быть каким угодно (например, «потому что Венера в Стрельце»).

Kanut Jul 2 at 06:05

Ну так учёных же как раз эти "объяснения" и интересуют. Им то интересно знать верна теория или нет.

И если эти "объяснения" субъективны, то получается что наука тоже.

Wesha Jul 2 at 06:15

Речь вообще-то шла о критериях правильности, а не о причинах облома.

Kanut Jul 2 at 07:30

Что вы понимаете под "критерии правильности" в данном случае? Что будет "правильным ответом на вопрос учёных", а что нет? И почему?

П.С. Особенно интересно понять это в контексте того, что вы даже близко не знаете какие вопросы задавали учёные :)

Wesha Jul 2 at 08:21

Что вы понимаете под "критерии правильности" в данном случае?

Я понимаю, конечно, что кануты — не читатели, но Вы уж, пожалуйста, пересильте себя и поинтересуйтесь этим у исходного аффтара.

Kanut Jul 2 at 08:41

Не-не-не. Это у вас возникли какие-то вопросы к "правильности" ответов: https://habr.com/ru/news/924072/comments/#comment_28514936

Поэтому и вопросы к вам. Я даже специально уточнил про

Что будет "правильным ответом на вопрос учёных", а что нет? И почему?

Wesha Jul 2 at 13:15

Что будет "правильным ответом на вопрос учёных"

«Я не знаю».

Kanut Jul 2 at 13:16

Это единственно возможный правильный ответ на любой вопрос от учёных?

Wesha Jul 2 at 15:44

Зависит от количества сгрызенного Вами гранита науки.

Kanut Jul 2 at 15:45

То есть нет. Тогда можете как-то описать весь спектр возможных правильных ответов?

Wesha Jul 2 at 16:22

можете как‑то описать весь спектр возможных правильных ответов?

Могу. От «я не знаю» до «это полный и совершенно однозначный бред».

Kanut Jul 2 at 16:24

То есть не полный или не однозначный бред будет с вашей точки правильным ответом?

Тогда вообще не понятно какие у вас претензии к ChatGPT. Если ему давать нормальный промпт, то полный и однозначный бред он не выдаёт :)

Wesha Jul 2 at 19:38

То есть не полный или не однозначный бред будет с вашей точки правильным ответом?

Я понимаю, конечно, что у народа канутов своя, особая логика — но вот что у них своя, особая пунктуация (и они не в курсе, что текст в кавычках есть строковое значение), я ещё не знал.

Kanut Jul 2 at 19:40

Это у вас похоже какая-то особая логика и пунктуация. Причём каждый раз когда вам ответить нечего...

Wesha Jul 2 at 20:36

Ответить-то мне есть чего, вот только отвечать конкретно Вам — чуть менее, чем бессмысленно. Спросит кто другой — отвечу.

rPman Jul 1 at 20:55

прежде чем начать тестировать модели, они проходят часовой инструктаж.

было бы неплохо почитать о том, что в этом инструктаже было

p.s. судя по тому что предыдущие версии deepseek r1 и v3 стояли рядом, проблема не в интеллекте, а в знаниях. Reasoning обычно добавляет модели заметно очков, а вот новая версия r1-0528 стоит значительно выше, архитектура сети не менялась, ее дотюнили, возможно добавили знаний (создатели нейронки, имеющие на руках обучающую выборку это могут сделать)

Model rating comparisons

Еще момент, странно сравнивать модели, с доступом к интернету (на сколько я понял как минимум gpt-4.1 умеет давать ссылки и судя по ответу подозрительно умеет добавлять в контекстное окно необходимую информацию самостоятельно) и без него

p.p.s. очень жаль, что в исследовании отсутствовала модель qwen3-30b-a3b, по личным тестам, удивительно как им удалось в 3b эксперта впихнуть заметное качество

runaway_llm Jul 1 at 21:41

Если поздняя версия V3, то ничего странного, она на равных с ранней R1. В интернет лазать было запрещено всем моделям, вместо этого им давали работы из архива научных материалов. Этот момент в тесте мне нравится меньше всего.

rPman Jul 2 at 04:52

как искали, как давали!? реализация RAG определяет качество драматически.

Специально для этого бенчмарка выпустили ограниченную версию o3 и gpt-4.1? повторяю, в интернет или во внутреннюю базу openai они кажется лезут самостоятельно без спросу.

Olorin111 Jul 2 at 02:16

Лучшая рассуждающая версия лучшей языковой модели оказалась лучшей? Как неожиданно

MomNata Jul 2 at 06:02

Предварительно учёных инструктировали целый час, чтобы они не задавали сложных вопросов?)

А субъективность здесь в том, что учёный выбирает, что ему больше понравилось из ответов.