Может ли ИИ заменить вас на работе? Ученые проверили на 175 задачах

4 мин

13K

Искусственный интеллектМашинное обучение*

Обзор

ИИ уже пишет код, управляет проектами и общается с коллегами. Но можно ли прямо сейчас доверить ему всю офисную работу? Исследователи протестировали 7 самых мощных нейросетей на 175 реальных задачах. Спойлер: полностью заменить сотрудников нейросети пока не могут. Но давайте разберемся, что именно у них получается лучше всего, какие задачи еще вызывают трудности и стоит ли уже сегодня нанимать себе цифрового помощника в штат.

Исследователи из проекта TheAgentCompany выпустили статью "TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks": они решили проверить насколько хорошо ИИ-агенты способны писать код, управлять задачами, анализировать отчеты и общаться с коллегами на примере реальной компании-стартапа, смоделированной специально для тестирования нейросетей.

TheAgentCompany: воспроизводимая локальная среда, симуляция коллег для проверки навыков коммуникации агентов, оценка на основе контрольных точек и выполнения задач, а также 175 реалистичных задач из области разработки ПО.

Как проверяли

Авторы создали виртуальную компанию с типичными корпоративными системами:

GitLab для хранения кода и документации.
OwnCloud для офисных документов.
Plane для управления проектами.
RocketChat для внутренней переписки с виртуальными коллегами.

Всего было сформулировано 175 типичных рабочих задач разного уровня сложности по ролям: разработчики, менеджеры проектов, финансисты, HR-специалисты, администраторы и другие. Каждая задача была четко описана и разделена на контрольные точки, за выполнение которых начислялись баллы.

Сравнение различных бенчмарков AI-агентов по следующим критериям: интерфейс, типы задач, наличие промежуточной оценки и возможность взаимодействия с виртуальными агентами

Задачи выполняли семь современных языковых моделей:

Claude-3.5 Sonnet
Gemini-2.0 Flash
GPT-4o
Amazon Nova Pro
Llama-3.1 405B
Llama-3.3 70B
Qwen-2.5 72B

Модели запускались в Docker-контейнере и имели доступ к терминалу, Python-ячейкам и браузеру. Оценивалась точность выполнения задач и стоимость (по количеству токенов).

Что получилось

Пример рабочего процесса в TheAgentCompany: агент управляет спринтом проекта RisingWave, перемещает незавершенные задачи на следующий спринт, уведомляет исполнителей, запускает скрипт проверки покрытия кода, загружает отчет в OwnCloud и учитывает обратную связь от виртуального менеджера проекта

Самой успешной моделью оказалась Claude-3.5 Sonnet, которая смогла полностью автономно выполнить 24% задач. Ещё 10,4% задач она решила частично, в сумме набрав 34,4% баллов. Средняя стоимость выполнения одной задачи составила $6.34.

Более дешевая модель Gemini-2.0 Flash решила полностью только 11,4% задач, но стоила всего $0.79, хотя тратила больше шагов (в среднем 40 на задачу). Интересный факт: GPT-4o оказалась менее эффективной (8,6% успеха), но «сдавалась» раньше, экономя бюджет ($1.29 за задачу).

Среди открытых моделей лучшей оказалась Llama-3.1 405B с полным результатом в 7,4% задач и стоимостью $3.21. Однако более компактная Llama-3.3 70B практически не уступила ей (6,9% задач), при этом обойдясь всего в $0.93.

Обзор архитектуры базового агента OpenHands (CodeAct + Browsing), использованного в экспериментах

Где нейросети справляются, а где нет

Сравнение производительности различных базовых моделей на задачах TheAgentCompany

Оценка производительности моделей по платформам в задачах TheAgentCompany

Анализ по платформам показал:

На GitLab лучше всего справляется Claude (почти 31% задач), а Llama-3.1 — всего 5,6%.
В задачах управления проектами (Plane) показатели лучше: Claude (41,2%), Llama (29,4%).
В общении с коллегами (RocketChat) Claude выполнил 21,5% задач, а Llama — менее 9%.
Самые большие проблемы с OwnCloud (офисные документы): Claude решил лишь 10%, а Llama вообще 0%.

По типам задач:

Разработка ПО и управление проектами (SDE, PM) - самые успешные задачи (30-35% успеха).
Слабее всего нейросети показали себя в административных задачах (0%) и финансах (Claude - 8,3%).

Почему ИИ-агенты ошибаются?

Самые частые ошибки:

Отсутствие базового здравого смысла (например, не понимают, что файл с расширением .docx — это документ).
Игнорирование советов и рекомендаций виртуальных коллег.
Проблемы с интерфейсом: нейросети путаются в сложных веб-приложениях и не могут справиться с простыми всплывающими окнами.
Иногда пытаются переименовать пользователя вместо того, чтобы найти нужного коллегу.

Что дальше?

Уже сейчас современные нейросети могут значительно ускорить выполнение рутинных и простых рабочих задач. Особенно эффективны они там, где есть технический код или четкие инструкции.

Однако пока нельзя полностью полагаться на нейросети в долгосрочных, сложных и социальных задачах. Также не хватает креативности и стратегического мышления - нейросети действуют шаблонно и плохо адаптируются к неожиданностям.

Существуют риски с потенциальной безработицей: если ИИ заменят сотрудников в простых задачах, специалисты должны будут повышать квалификацию, чтобы оставаться востребованными.

Авторы предлагают следующие шаги для улучшения ИИ-агентов:

Проверять на более сложных, креативных задачах.
Добавить возможность работать не только с текстом, но и с визуальной информацией.
Сравнить эффективность нейросетей с людьми-профессионалами.
Улучшать способность моделей работать в социальных и интерфейсных сценариях с помощью гибридных архитектур.

Несмотря на ограничения, уже сейчас ИИ может эффективно поддерживать корпоративные процессы и освобождать сотрудников от рутины. До полной автономии далеко, но уже сегодня реалистична идея «гибридного» рабочего места, где человек и машина работают вместе, дополняя друг друга. Это новый этап в развитии технологий, и он уже здесь.

🕹️ Демо работы ИИ-агентов

💻 Открытый код проекта

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Хабы: