FrontierScience: OpenAI выпустила бенчмарк PhD-сложности для проверки научного мышления ИИ / Хабр

Компания OpenAI решила проверить, на что действительно способны её модели в сфере научного прогресса, и поделилась интересными результатами, которые сочетают в себе как теоретические тесты, так и реальную лабораторную работу.

FrontierScience — экзамен на учёную степень для ИИ

Чтобы понять, насколько модель может рассуждать как эксперт, нужны и соответствующие задачи. Команда OpenAI выпустила новый бенчмарк под названием FrontierScience. Его цель — измерить научное мышление на уровне PhD в физике, химии и биологии.

В FrontierScience вошли сложные, написанные экспертами задачи (как олимпиадного стиля, так и более длинные исследовательские задания), призванные выявить сильные и слабые стороны моделей. Как заявляют разработчики, данный бенчмарк — шаг к более сложным и значимым тестам, которые нужны этой области.

Новейшая GPT-5.2 показала наилучший результат в этом испытании. Но что важно: сам бенчмарк выявил любопытный разрыв. Модели могут хорошо справляться со структурированными проблемами, но открытое, итеративное мышление, необходимое в реальных исследованиях, — это пока другой уровень сложности.

От вопросов — к пробиркам в лаборатории

OpenAI пошли дальше тестов и попробовали силы модели в реальных условиях.

Они сотрудничали с биотехкомпанией Red Queen Bio, чтобы проверить, как модели могут оптимизировать лабораторные протоколы. Суть эксперимента: GPT-5.2 получал задачу, предлагал, запускал (через контролируемую среду) и итеративно улучшал эксперименты.

Фокус был на молекулярном клонировании — одном из фундаментальных инструментов биологии. И здесь результаты впечатляют: модель смогла повысить эффективность стандартного протокола в 79 раз, применяя набор методик, в числе которых — подход, основанный на использовании ферментов.

Ссылки по теме:

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

FrontierScience: OpenAI выпустила бенчмарк PhD-сложности для проверки научного мышления ИИ

FrontierScience — экзамен на учёную степень для ИИ

От вопросов — к пробиркам в лаборатории

Другие новости

Информация