Обновить

Комментарии 18

Спасибо за перевод! Но, конечно, ждать от LLM адекватных детерминированных познаний в любой области это слишком амбициозно) RLHF, энтертеймент, синтетический датасет - все это только больше закапывает и так не идеальную архитектуру. Интересно было бы почитать про доменные LLM, а в идеале про применение узкоспециализированных архитектур типа PINNs у которого loss функция напрямую завязана с физическими законами, если есть такие статьи

Но обсудить с ИИ какую то то вещь в известной физике, которую было стыдно спросить - очень полезная вещь

Вот именно. Как справочник, как этакий "поисковик", в конце концов даже как преподаватель - ну нормально, пойдет, если даже и сглючит в формуле, то покажет куда копать. А из нового они могут генерировать только условные компиляции из того, что знают сами. И причина этого в том, что у LLM нет модели мира (об этом уже тонны статей понаписано). Известно, что простейшей моделью реальности могут служить физические формулы. Но пока совершенно непонятно, как это все гармонично обьединить, кроме различных костылей и подпорок.

Ну с точки зрения науки лучше всего ChatGPT (Claude лучше всего пишет рассказы, grok NSFW). Я вот тут недавно обсуждал с ChatGPT есть ли nested black holes. А чем то я его ловил, в чем то он убеждал меня. Но главное, он не торопился соглашаться

Ни один из них не лучше. Они отличаются лишь правдоподобностью и подробностью обьяснений. Я тоже интересовался у них по поводу внутренностей черных дыр, и даже одна и та же модель может рассказывать совершенно разные версии. Ну да, возможно, компиляция известных фактов может дать неожиданные результаты. Только вот все надежды разбиваются об то, что подобные "компиляции" даже у ученых-людей не шибко то и выстреливали. А у кого получалось - ну извините, это были ученые с большой буквы, открыть черную дыру "на кончике пера" это одно из редчайших исключений.

Как развлекалово, и темки "на подумать" - они пишут отлично. И можно, и нужно подумать после этого. Если не подумать - чуда не произойдет.

Я не отрицаю, что подобные открытия возможно сделать с помощью LLM. Возможно что и да. Но сейчас интернеты завалены статьями откровенных дилетантов, которые закон ома от истории древнего рима не отличают, с выкладками, тонной формул (которые им бездумно нагенерила нейронка), и это такая нагрузка даже для интернет-диванных-рецензентов(я молчу про настоящих ученых-рецензентов в журналах и вузах), что все не перепроверишь. Поэтому - LLM - гуляй вася.

Будучи обычным любителем научпопа, часто использую нейросетку в поисковике гугла чтобы найти больше информации о какой-нибудь сенсационной новости, размещенной на сомнительном ресурсе. Помогает найти подтверждение на нормальных ресурсах и определить - стоит ли к новости относиться как к маргинальной/непроверенной или как к официальной науке.

Показательно, что в приведённом диалоге с простой математической задачей ЛЛМ даже неверно сравнила 25 и 26 ("25, which is greater than 26"):

Скриншот

Не говоря уже о том, что она "забыла" про отрицательные числа.

Этилбензоловые рыбки хоть в торт не добавила, и то спасибо. То, что она собиралась сделать рыбку из жидкости, замерзающей только при -95° — это отдельный гэг для эрудированных.

У ллм есть плюс - они могут объяснить разные теории разным языком для разных слоев населения. Детсадовцам, школьникам, студентам всем по разному. В этом они хороши. В теории, когда подойдет новое поколение моделей, которые учатся реальной физике и выстраивают свои физические модели в кремнии, может быть барьер галлюцинаций будет пройден. Жонглируя словами - физические модели не построить.

Мне кажется, что тут смешались в кучу кони, люди. LLM-модель никогда не способна была действовать абсолютно аналитически, и принимать решения на основе анализа данных. Здесь (как костыль) приходит RAG. Вот ты на вход первичной модели подаёшь свой Retrieval, основанный на линейной математике, Марковских, Байеса, Калмана с твоими коэффициентами, ещё чего-то-там, потом получаешь выдачи вторичной модели на основе промпта, который ей сгенерирован. Мне кажется, что главное заблуждение общения с моделями заключается в том, что она должна за тебя "подумать". пока что нет. думай сам. дай данные для вторичной аналитики. Потом, но основе обоснованных практик RAG с очень длинным контекстом можно переобучить в модельки. Не надо ждать ничего большего от пре-интеллекта. Ему только ещё предстоит появиться.

Следует признать, концептуально для искусственного интеллекта и машинного обучения действительно находится применение и в физике, и в астрофизике.

КТО?

Мда... Такое ощущение в очередной раз, что автор подгонял факты под свое заранее сформированное мнение об ИИ.

Ну как связаны исследование, где обучают нейронку на датасете из физических параметров и разговоры с языковыми моделями? Тем что и там и там речь про ИИ?

Разговор с чатботом, подгрузка контекста - это не тоже самое что машинное обучение. В этот момент веса модели не корректируются. Это иной подход. Автор же аргументирует обреченность LLM, используя примеры, когда исследователи именно обучали модель, использовали её как нелинейный регрессор.

LLM была обучена аппроксимировать логические (и не очень) рассуждения в тексте. Даём ей утверждения на вход - она имитирует логический вывод (повторяя за авторами текстов на которых обучалась). Если из той информации, что мы ей дали можно сделать логический вывод факта, обладающего научной новизной, значит есть вероятность что и модель его выведет. Почему это работает? Потому что Давид Гильберт показал, что математика отчасти - это просто игра символов. Формальный язык с грамматикой, аксиомами и теоремами. Почему только вероятность - потому что такова природа машинного обучения и аппроксимации.

И вот это основная задача которую LLM научилась решать, потому что логическая последовательность - необходимый навык для генерации следующего слова по контексту. То что модель запомнила, кто такой Ньютон и что он такого замечательно сделал, а также, что солнце желтое, светит днем, то есть построила физическую модель мира - это побочка, которая и не должна была хорошо работать.

Если хотите, чтобы LLM выводила новые факты, законы - загружайте ей соответствующий контекст, а не полагайтесь на то, что в попытке научиться продолжать слова, она запомнила структуру черной дыры или сколько лап у стрекозы. Главное правило импликации: только из истины можно вывести истину. Если на входе бред (побочные воспоминания LLM), значит и на выходе бред.

Еще раз. Тот факт, что подход, когда мы берем матрицы, подгоняем их коэффициенты, чтобы уменьшить ошибку на ограниченном датасете, скатывается в переобучение, не позволяет создать модель, уловившую глобальные закономерности в физических явлениях, не означает, что хорошо обученный имитатор логических рассуждений плохо справится с задачей рассуждать логически и подкидывать идеи новых теорий и открытий.

Такое ощущение в очередной раз, что автор подгонял факты под свое заранее сформированное мнение об ИИ.

На самом деле автор, известный специалист и популяризатор физики, все правильно написал. Он упомянул модели со специальной архитектурой натренированных на подходящих данных, которые успешно решают физические задачи, особенно их много в астрофизике - 1, 2, 3, 4, включая задачу вывода закона гравитации Ньютона. Он предупредил о проблемах с их решением в ЯМ общего назначения, которые не разрабатывали и не тренировали специально для решения таких задач. И даже если в тренировочных выборке были нужные данные это не гарантирует правильного решения в условиях стандартного тренинга, что и показали авторы в статье на которую он ссылается. В этой публикации автор сделал аналогичные выводы. Проблема в том что ЯМ с существующей архитектурой пока не всегда могут делать обобщения из конечного набора частных данных с выводом аналитического закона или универсальной процедуры их обработки. Проблема с обобщением даже с обучением на конечном числе примеров операций с числами, которое могут делать уже школяры начальных классов. Пока она решается привлечением сторонних средств. Это ограничения трансформерной архитектуры ЯМ, которые в перспективе могут быть устранены. Но не увеличением числа параметров и объемов обучающей выборки, а введением, например, состояний сети и встроенной рекуррентности. Это улучшит способности к обобщению, и соответственно расширит класс корректно решаемых задач, включая физических. Специализированные решения как раз разными способами обходят эти ограничения их архитектуры.

Не знаю, на какой модели запускали тот тест.
Ответ на топовых моделях правильный с первого промпта.
Ответ на топовых моделях правильный с первого промпта.

Они использовали какого-то аутсайдера. Мораль: если критикуешь llm, проверь свою задачу на обоих китайцах (см ниже)

Вот как эта модель из Бостона решила:
Вот об этой модели:

Сервис iAsk.ai был разработан компанией iAsk AI, основанной в 2022 году в Чикаго, США, её соучредителями являются Dominik Mazur и Brad F. .

Что касается используемых моделей, iAsk.ai работает на основе собственной продвинутой модели под названием iAsk Pro, которая, по утверждению разработчиков, превосходит такие известные модели, как GPT-4o от OpenAI и Claude 3.5 Sonnet в тестах на точность и фактическую достоверность ответов .

Технологическая основа включает высоко оптимизированную модель обработки естественного языка и улучшенную крупномасштабную языковую модель на архитектуре Transformer, обученную на надёжных и авторитетных источниках .

Оба китайца справляются с задачей даже без режимов поиска и рассуждений:

Qwen
Deepseek

Забавно, что без включенного режима рассуждения он рассуждает в своем ответе. А если включен режим рассуждения – то он прячем процесс решения в секцию thinking и выдает юзеру только готовый ответ

В целом ИИ полезен тем, чтобы отдавать ему рутину. Оставьте генерацию новых идей себе. А языковая модель (Gemini 3 Pro) вполне годно челленжит всякий бред, который я придумываю. Иногда она городо низвергает меня неверными доводами, но любые живые человеческие собеседники, которых я бы нашёл, тоже выдавали бы такое. Так что, как обычно, важно прикладывать правильное к правильному.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации