Search
Write a publication
Pull to refresh

Исследовательская группа Model Evaluation & Threat Research из Калифорнийского университета в Беркли представила новый способ измерения прогресса больших языковых моделей. Вместо привычных метрик вроде точности ответов или скорости генерации учёные предложили другой аспект: сколько времени требуется человеку на задачу, которую ИИ может успешно выполнить хотя бы в 50% случаев?

Согласно расчётам, с каждым годом модели справляются с всё более объёмными задачами, и темп этого роста — экспоненциальный. С 2019 года способности LLM в решении задач улучшаются вдвое каждые 7 месяцев:

  • GPT-2, вышедший в 2019 году, мог справиться только с ответами на вопросы, что в среднем занимает у человека до минуты;

  • GPT-4, который появился в 2023, уже мог брать на себя задачу вроде «найти факт в интернете», которая занимает у человека от 8 до 15 минут;

  • более продвинутые модели вроде Claude 3.7 и OpenAI o1 могут бать на себя задачи, выполнение которых человеком выходит за пределы часа.

Если темпы роста сохранятся, то уже к 2030 году языковые модели смогут решать за часы задачи, которые потребовали бы 167 часов работы человека — это условный месяц работы в графике 5/2. Речь идёт о комплексной интеллектуальной работе: от оптимизации архитектуры кастомного чипа до запуска нового продукта или даже написания содержательной книги.

В исследовании, например, в 167 часов оценена задача открыть новую компанию. Авторы исследования считают, что к 2030 году ИИ сможет браться за такую задачу автономно, то есть не в виде ассистента, а как самостоятельный исполнитель.

Исследование не учитывает внешние ограничивающие факторы, и авторы сами об этом говорят. Даже если ИИ будет таким умным, как его описывают, его возможности могут упереться в вычислительные мощности или доступ к памяти.

Tags:
0
Comments1

Articles