Как стать автором
Поиск
Написать публикацию
Обновить

Может ли ИИ заменить вас на работе? Ученые проверили на 175 задачах

Время на прочтение4 мин
Количество просмотров13K

ИИ уже пишет код, управляет проектами и общается с коллегами. Но можно ли прямо сейчас доверить ему всю офисную работу? Исследователи протестировали 7 самых мощных нейросетей на 175 реальных задачах. Спойлер: полностью заменить сотрудников нейросети пока не могут. Но давайте разберемся, что именно у них получается лучше всего, какие задачи еще вызывают трудности и стоит ли уже сегодня нанимать себе цифрового помощника в штат.

Исследователи из проекта TheAgentCompany выпустили статью "TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks": они решили проверить насколько хорошо ИИ-агенты способны писать код, управлять задачами, анализировать отчеты и общаться с коллегами на примере реальной компании-стартапа, смоделированной специально для тестирования нейросетей.

TheAgentCompany: воспроизводимая локальная среда, симуляция коллег для проверки навыков коммуникации агентов, оценка на основе контрольных точек и выполнения задач, а также 175 реалистичных задач из области разработки ПО.
TheAgentCompany: воспроизводимая локальная среда, симуляция коллег для проверки навыков коммуникации агентов, оценка на основе контрольных точек и выполнения задач, а также 175 реалистичных задач из области разработки ПО.

Как проверяли

Авторы создали виртуальную компанию с типичными корпоративными системами:

  • GitLab для хранения кода и документации.

  • OwnCloud для офисных документов.

  • Plane для управления проектами.

  • RocketChat для внутренней переписки с виртуальными коллегами.

Всего было сформулировано 175 типичных рабочих задач разного уровня сложности по ролям: разработчики, менеджеры проектов, финансисты, HR-специалисты, администраторы и другие. Каждая задача была четко описана и разделена на контрольные точки, за выполнение которых начислялись баллы.

Сравнение различных бенчмарков AI-агентов по следующим критериям: интерфейс, типы задач, наличие промежуточной оценки и возможность взаимодействия с виртуальными агентами
Сравнение различных бенчмарков AI-агентов по следующим критериям: интерфейс, типы задач, наличие промежуточной оценки и возможность взаимодействия с виртуальными агентами

Задачи выполняли семь современных языковых моделей:

  • Claude-3.5 Sonnet

  • Gemini-2.0 Flash

  • GPT-4o

  • Amazon Nova Pro

  • Llama-3.1 405B

  • Llama-3.3 70B

  • Qwen-2.5 72B

Модели запускались в Docker-контейнере и имели доступ к терминалу, Python-ячейкам и браузеру. Оценивалась точность выполнения задач и стоимость (по количеству токенов).

Что получилось

Пример рабочего процесса в TheAgentCompany: агент управляет спринтом проекта RisingWave, перемещает незавершенные задачи на следующий спринт, уведомляет исполнителей, запускает скрипт проверки покрытия кода, загружает отчет в OwnCloud и учитывает обратную связь от виртуального менеджера проекта
Пример рабочего процесса в TheAgentCompany: агент управляет спринтом проекта RisingWave, перемещает незавершенные задачи на следующий спринт, уведомляет исполнителей, запускает скрипт проверки покрытия кода, загружает отчет в OwnCloud и учитывает обратную связь от виртуального менеджера проекта

Самой успешной моделью оказалась Claude-3.5 Sonnet, которая смогла полностью автономно выполнить 24% задач. Ещё 10,4% задач она решила частично, в сумме набрав 34,4% баллов. Средняя стоимость выполнения одной задачи составила $6.34.

Более дешевая модель Gemini-2.0 Flash решила полностью только 11,4% задач, но стоила всего $0.79, хотя тратила больше шагов (в среднем 40 на задачу). Интересный факт: GPT-4o оказалась менее эффективной (8,6% успеха), но «сдавалась» раньше, экономя бюджет ($1.29 за задачу).

Среди открытых моделей лучшей оказалась Llama-3.1 405B с полным результатом в 7,4% задач и стоимостью $3.21. Однако более компактная Llama-3.3 70B практически не уступила ей (6,9% задач), при этом обойдясь всего в $0.93.

Обзор архитектуры базового агента OpenHands (CodeAct + Browsing), использованного в экспериментах
Обзор архитектуры базового агента OpenHands (CodeAct + Browsing), использованного в экспериментах

Где нейросети справляются, а где нет

Сравнение производительности различных базовых моделей на задачах TheAgentCompany
Сравнение производительности различных базовых моделей на задачах TheAgentCompany
Оценка производительности моделей по платформам в задачах TheAgentCompany
Оценка производительности моделей по платформам в задачах TheAgentCompany

Анализ по платформам показал:

  • На GitLab лучше всего справляется Claude (почти 31% задач), а Llama-3.1 — всего 5,6%.

  • В задачах управления проектами (Plane) показатели лучше: Claude (41,2%), Llama (29,4%).

  • В общении с коллегами (RocketChat) Claude выполнил 21,5% задач, а Llama — менее 9%.

  • Самые большие проблемы с OwnCloud (офисные документы): Claude решил лишь 10%, а Llama вообще 0%.

Оценка производительности моделей по типам задач в TheAgentCompany
Оценка производительности моделей по типам задач в TheAgentCompany

По типам задач:

  • Разработка ПО и управление проектами (SDE, PM) - самые успешные задачи (30-35% успеха).

  • Слабее всего нейросети показали себя в административных задачах (0%) и финансах (Claude - 8,3%).

Почему ИИ-агенты ошибаются?

Самые частые ошибки:

  • Отсутствие базового здравого смысла (например, не понимают, что файл с расширением .docx — это документ).

  • Игнорирование советов и рекомендаций виртуальных коллег.

  • Проблемы с интерфейсом: нейросети путаются в сложных веб-приложениях и не могут справиться с простыми всплывающими окнами.

  • Иногда пытаются переименовать пользователя вместо того, чтобы найти нужного коллегу.

Что дальше?

Уже сейчас современные нейросети могут значительно ускорить выполнение рутинных и простых рабочих задач. Особенно эффективны они там, где есть технический код или четкие инструкции.

Однако пока нельзя полностью полагаться на нейросети в долгосрочных, сложных и социальных задачах. Также не хватает креативности и стратегического мышления - нейросети действуют шаблонно и плохо адаптируются к неожиданностям.

Существуют риски с потенциальной безработицей: если ИИ заменят сотрудников в простых задачах, специалисты должны будут повышать квалификацию, чтобы оставаться востребованными.

Авторы предлагают следующие шаги для улучшения ИИ-агентов:

  • Проверять на более сложных, креативных задачах.

  • Добавить возможность работать не только с текстом, но и с визуальной информацией.

  • Сравнить эффективность нейросетей с людьми-профессионалами.

  • Улучшать способность моделей работать в социальных и интерфейсных сценариях с помощью гибридных архитектур.

Несмотря на ограничения, уже сейчас ИИ может эффективно поддерживать корпоративные процессы и освобождать сотрудников от рутины. До полной автономии далеко, но уже сегодня реалистична идея «гибридного» рабочего места, где человек и машина работают вместе, дополняя друг друга. Это новый этап в развитии технологий, и он уже здесь.

🕹️ Демо работы ИИ-агентов

💻 Открытый код проекта

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Теги:
Хабы:
Всего голосов 6: ↑5 и ↓1+5
Комментарии17

Публикации

Ближайшие события