Как стать автором
Обновить

OpenAI анонсировали Deep Research — самостоятельного агента для исследований

Время на прочтение3 мин
Количество просмотров13K

В 16:00 по Pacific Time OpenAI запустили стрим, на котором анонсировали новый продукт компании - Deep Research, особый режим для ChatGPT, в котором он переходит в режим высокой автономности, и может проводить длительные глубокие исследования - самостоятельно вырабатывать план работ, ходить по интернету в поисках информации, агрегировать и анализировать данные при помощи Python-скриптов, и всё это полностью без участия человека.

Это большой шаг в автономности ИИ - даже "думающие" (reasoning) модели от OpenAI хоть и способны вести (иногда) длинную цепочку мыслей, но неспособны настолько активно пользоваться различными инструментами для сбора информации и её обработки.

Бенчмарки

Начнем с бенчмарка Humanity Last Exam:

Результат, безусловно, впечатляющий, но смущает "with browsing and python tools". Ну то есть, AI смог пройти экзамен, и при этом мог... гуглить? Возникают вопросы по методологии, будем ждать более детальных разъяснений от OpenAI.

Теперь перейдём к GAIA, это гораздо интереснее:

GAIA интересен в первую очередь как раз тем, что это тесты заточенные под реалистичные задачи, которые выполняют люди в повседневной жизни: этот бенчмарк предполагает, что AI умеет юзать браузер, гуглить, размышлять, "видеть" изображения, и так далее. Поэтому, этот бенч кажется как раз наиболее релевантным для Deep Research.

Если взглянуть на лидерборд моделей, участвовавших в GAIA, то на первом месте там агент на базе Claude 3.5 Sonnet:

И здесь можно увидеть, что OpenAI демонстрируют действительно значительный рост, Deep Research в максимальном режиме выдаёт 58% на Level 3 против 42% (предыдущий рекорд) или 40.8% (предыдущий рекорд на HuggingFace).

Рассуждения о качестве

Дальше OpenAI рассказывают нам о том, как они тестировали этот продукт во внутренних бенчмарках. Это какие-то хитрые тесты, где они давали результат работы агента эксперту, и он оценивал, удовлетворительный ли это результат или нет.

После чего, OpenAI посчитали корреляцию между правильными ответами агента и тем, какая была ценность у проведённой работы ("economic value") и тем, сколько это заняло времени.

Корреляции, надо сказать, довольно забавные. "Чем ценнее задача - тем сложнее добиться хорошего результата" - это понятная закономерность, обычно более ценные задачи более сложные, и корреляция "чем сложнее - тем хуже получается" - логична. А вот график справа скорее неожиданный: зачастую, когда модель проводит более быстрое исследование, она выдает более качественный результат, нежели чем когда исследует дольше. Я бы это объяснил через первую корреляцию - зачастую, более быстрые исследования нужны для более простых запросов, а как мы уже знаем из графика слева - по простым запросам результаты, закономерно, выше.

Ещё один интересный график. Tool calls - это обращения в браузер (гугл, википедия, прочие сайты) и выполнения кода на Python (числовая аналитика).

Здесь видно, что у агента практически нулевой результат, когда он делает менее 20 обращений к браузеру/питону. Но потом качество результата растет практически линейно с ростом количества обращений. Тренд заканчивается на отметке в 60 обращений - видимо, после этого числа модель уже достаточно прошерстила весь интернет, и всю легко-достижимую информацию, и дальше от количества запросов рост качества совсем незначителен.

Заключение

OpenAI начал год с сильных продуктов в "агентском" сегменте (сначала Operator, теперь Deep Research), кажется, что внутренний фокус компании сильно смещается с развития базовых моделей на развитие приложений, в которых эти модели применяются.

Пока что трудно судить, хорошо ли это. Моё личное мнение - это выглядит немного агонистично на фоне сильных архитектурных прорывов, которые совершили DeepSeek в R1-Zero, и то, что OpenAI пытается перетянуть одеяло инфоповодов на себя, выпуская довольно типовые продукты с AI-агентами - для меня несколько странно.

Хочется верить, что ребята понимают, что делают, и анонсы сильных базовых моделей не за горами.

----

P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!

Теги:
Хабы:
Всего голосов 12: ↑9 и ↓3+7
Комментарии14

Другие новости

Истории

Работа

Data Scientist
48 вакансий

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
22 апреля
VK Видео Meetup 2025
МоскваОнлайн
23 апреля
Meetup DevOps 43Tech
Санкт-ПетербургОнлайн
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область