Комментарии 14
Все эти обещания заменить кожаных работников на ИИ - чисто способ разогнать стоимость акций, чтобы срубить больше денег.
Таким образом, эта статья про CritPt - холодный душ для техно-оптимистов, Это научное доказательство того, что без глубокого понимания физических законов и логики, LLM остаются лишь "глупыми инструментами" для "имитации науки". Результаты показывают фундаментальную разницу между "имитацией интеллекта" и настоящим мышлением.
Для получения работающей модели в нее нужно "залить" знания, если хочешь получить "академика" значит уровень знаний должен соответствовать "академику", причем модель должен полностью обучать специалист, владеющей предметной темой, если не на уровне "академика", то хотя бы на уровне "профессора". Если это условие не соблюдается положительного результата не будет. А теперь вопрос на логику:
Вопрос номер один: кто и зачем будет вкладывать тонну времени, чтобы создавать себе потенциального конкурента.
Вопрос номер два: хорошо создали модель, которая решает подобные задачи, кто ее проверять будет?)
Вопрос номер три: в тот момент, когда модель сбойнет, а кожанных специалистов уже сократят, кто сможет найти "поломку" в расчетах?
Те же люди, которые сейчас обучают машины ездить сами по себе. Водителям, в целом, не выгодно растить себе конкурентов, но каждому отдельному водителю выгодно получать большую зп от участия в таком проекте.
Тот, кто её и создал, вестимо :)
Не иронично, хочу увидеть этот момент. Мы обязательно увидим упавшие из-за ИИ самолёты и развороченные механизмы, потому что ИИ нафантазировал в расчётах.
Добавлю ещё один вопрос. Допустим, мы обучили ИИ на академика. А что дальше? Учёный должен работать с тем, на что датасетов ещё не придумали. Старые задачки оно, может быть, и порешает, а как там с новыми?
По работе регулярно сталкиваюсь с ситуацией, что там, где надо сделать что-то, на что ответ в гугле не найти, ИИ не вывозит. Будет делать вид, что знает и даже предложит решение, которое не работает. Но проблему не решит.
Теория мёртвого интернета?
Нагнали хайпа, и возвысили в способностях ИИ, огромный маркениг произвили. А в реальности думать эта штука не умеет, интуиции у неё нет, оперировать сложными и обемными мысли формами не умеет. Хайп уйдет, как пришёл. Много таких волн уже было с ИИ. Смотри, кому выгодно.
Интересно, чего ещё они ожидали от "T9 на стероидах"? Качественных научных текстов в обучающей выборке наверняка жалкие проценты, а то и доли процентов. Так что результат в 5% верных ответов очень даже неплох.
Ну как бы в новом наукоемком бенче и результаты должны быть примерно такими, а что будет через год, а через два года, а не дай Бог через три
Чисто журналюгам и ущербным хабровцам пословоблудить и поглумится
Вау, молоток справляется с покраской стен только на 9% от площади соприкосновения за мазок. И тут же комментарии в духе "Инструменты - В С Ё" . "Инструменты переоценены".
В следующий раз можно проверить как модель для генерации картинок сгенерирует дипломную работу, чтобы уж точно порадовать предсказателей
Все вопросы к публичным заявлениям различных амбассадоров супер классного ИИ, который "вызывает чувство общения с профессором" (или как там они преподносят свою очередную модель). Ну так и спрашивают с них теперь как с профессоров.
"Новая регистрационная работа"? Это текст тоже ИИ писал?
Сразу видно некоторое устаревание данных - тут лидер Gemini 3 Preview, но текущим лидером научных ИИ является Opus 4.5, который как сынка делает Gemini 3 Final.
Для понимания результатов недостает результатов от настоящих учёных, которым заранее не сказали правильные ответы. Если умные из умных набирают суммарно в 22 передовых направлениях науки не более 5%, то даже текущие результаты охренительные!
Ответы универсальных "чистых" LLM не особо интересны. Интересно как проходят бенчмарк версии, которые предварительно отфайнтюнили на учебниках и научных работах из этих 22 направлений знаний.
Боюсь предположить, сколько в таком тесте наберу я.
Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики