
ИИ уже пишет код, управляет проектами и общается с коллегами. Но можно ли прямо сейчас доверить ему всю офисную работу? Исследователи протестировали 7 самых мощных нейросетей на 175 реальных задачах. Спойлер: полностью заменить сотрудников нейросети пока не могут. Но давайте разберемся, что именно у них получается лучше всего, какие задачи еще вызывают трудности и стоит ли уже сегодня нанимать себе цифрового помощника в штат.
Исследователи из проекта TheAgentCompany выпустили статью "TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks": они решили проверить насколько хорошо ИИ-агенты способны писать код, управлять задачами, анализировать отчеты и общаться с коллегами на примере реальной компании-стартапа, смоделированной специально для тестирования нейросетей.

Как проверяли
Авторы создали виртуальную компанию с типичными корпоративными системами:
GitLab для хранения кода и документации.
OwnCloud для офисных документов.
Plane для управления проектами.
RocketChat для внутренней переписки с виртуальными коллегами.
Всего было сформулировано 175 типичных рабочих задач разного уровня сложности по ролям: разработчики, менеджеры проектов, финансисты, HR-специалисты, администраторы и другие. Каждая задача была четко описана и разделена на контрольные точки, за выполнение которых начислялись баллы.

Задачи выполняли семь современных языковых моделей:
Claude-3.5 Sonnet
Gemini-2.0 Flash
GPT-4o
Amazon Nova Pro
Llama-3.1 405B
Llama-3.3 70B
Qwen-2.5 72B
Модели запускались в Docker-контейнере и имели доступ к терминалу, Python-ячейкам и браузеру. Оценивалась точность выполнения задач и стоимость (по количеству токенов).
Что получилось

Самой успешной моделью оказалась Claude-3.5 Sonnet, которая смогла полностью автономно выполнить 24% задач. Ещё 10,4% задач она решила частично, в сумме набрав 34,4% баллов. Средняя стоимость выполнения одной задачи составила $6.34.
Более дешевая модель Gemini-2.0 Flash решила полностью только 11,4% задач, но стоила всего $0.79, хотя тратила больше шагов (в среднем 40 на задачу). Интересный факт: GPT-4o оказалась менее эффективной (8,6% успеха), но «сдавалась» раньше, экономя бюджет ($1.29 за задачу).
Среди открытых моделей лучшей оказалась Llama-3.1 405B с полным результатом в 7,4% задач и стоимостью $3.21. Однако более компактная Llama-3.3 70B практически не уступила ей (6,9% задач), при этом обойдясь всего в $0.93.

Где нейросети справляются, а где нет


Анализ по платформам показал:
На GitLab лучше всего справляется Claude (почти 31% задач), а Llama-3.1 — всего 5,6%.
В задачах управления проектами (Plane) показатели лучше: Claude (41,2%), Llama (29,4%).
В общении с коллегами (RocketChat) Claude выполнил 21,5% задач, а Llama — менее 9%.
Самые большие проблемы с OwnCloud (офисные документы): Claude решил лишь 10%, а Llama вообще 0%.

По типам задач:
Разработка ПО и управление проектами (SDE, PM) - самые успешные задачи (30-35% успеха).
Слабее всего нейросети показали себя в административных задачах (0%) и финансах (Claude - 8,3%).
Почему ИИ-агенты ошибаются?
Самые частые ошибки:
Отсутствие базового здравого смысла (например, не понимают, что файл с расширением
.docx
— это документ).Игнорирование советов и рекомендаций виртуальных коллег.
Проблемы с интерфейсом: нейросети путаются в сложных веб-приложениях и не могут справиться с простыми всплывающими окнами.
Иногда пытаются переименовать пользователя вместо того, чтобы найти нужного коллегу.
Что дальше?
Уже сейчас современные нейросети могут значительно ускорить выполнение рутинных и простых рабочих задач. Особенно эффективны они там, где есть технический код или четкие инструкции.
Однако пока нельзя полностью полагаться на нейросети в долгосрочных, сложных и социальных задачах. Также не хватает креативности и стратегического мышления - нейросети действуют шаблонно и плохо адаптируются к неожиданностям.
Существуют риски с потенциальной безработицей: если ИИ заменят сотрудников в простых задачах, специалисты должны будут повышать квалификацию, чтобы оставаться востребованными.
Авторы предлагают следующие шаги для улучшения ИИ-агентов:
Проверять на более сложных, креативных задачах.
Добавить возможность работать не только с текстом, но и с визуальной информацией.
Сравнить эффективность нейросетей с людьми-профессионалами.
Улучшать способность моделей работать в социальных и интерфейсных сценариях с помощью гибридных архитектур.
Несмотря на ограничения, уже сейчас ИИ может эффективно поддерживать корпоративные процессы и освобождать сотрудников от рутины. До полной автономии далеко, но уже сегодня реалистична идея «гибридного» рабочего места, где человек и машина работают вместе, дополняя друг друга. Это новый этап в развитии технологий, и он уже здесь.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.