Как стать автором
Поиск
Написать публикацию
Обновить

Агентная экономика. Дайджест за неделю

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров728

Для тех, кто следит за трендами Умной Автоматизации, чтобы понимать тему глубже и принимать верные решения.

По материалам McKinsey, Research IBM, PWC и Wired.

  • Фокус не на том, что автоматизировать, а какие решения следует доверить ИИ: Вместо погони за автоматизацией всего подряд, стоит задать вопрос, где агентный ИИ приносит наибольшую ценность при минимальных рисках. McKinsey предлагает классифицировать решения по уровням риска и сложности: низкорисковые, стандартные задания (проверка учетных данных, обработка простых заявок) уже можно передавать ИИ-агентам, тогда как решения с высоким риском и необходимостью глубокого суждения (например, расследование мошенничества или сложные исключения по страховым выплатам) требуют «человеческого контроля». Такой избирательный подход позволяет более эффективно распределять ресурсы и быстрее запускать «малый ИИ», а сама задача корпоративных ИИ-агентов постепенно расширяется по мере роста доверия к ним.

  • Про будущее оценки ИИ-агентов и MAS в работе IBM Research совместно с несколькими университетами, представленной для конференции EMNLP

    Потребность в стандартизированных и более содержательных бенчмарках для ИИ-агентов: IBM совместно с коллегами из нескольких университетов проанализировали 120 методик оценки LLM-агентов и обнаружили, что нынешние бенчмарки сильно различаются по качеству и зачастую ограничены узким фокусом на точности ответа. Авторы называют эту работу «никогда прежде не проводившимся обзором» и подчёркивают, что без общепринятых стандартов сложно понять, насколько далеко продвинулись агенты и где скрываются их слабые места.

    Ниже несколько хайлайтов из этой работы.

    • Ключевые компетенции ИИ-агентов и существующие инструменты оценки: Современные тесты измеряют четыре базовых навыка:

      1. Планирование и рассуждение: Benchmarks вроде PlanBench, MINT и IBM ACPBench проверяют способность разбивать сложные задачи на шаги и формировать планы.

      2. Вызов внешних инструментов (tool calling): Gorilla V3 и NESTFUL оценивают, насколько агенты умеют делать «вложенные» или «параллельные» API-запросы, соединяя результаты разных сервисов в единую цепочку.

      3. «Рефлексия» и адаптация: LLF-Bench измеряет, как агент воспринимает обратную связь и исправляет ошибки по ходу выполнения задачи.

      4. Долгосрочная память: LoCoMo проверяет умение референцировать и учитывать более ранний контекст в длинных диалогах, выходя за рамки «встроенных» знаний в ядре модели.

    • Сдвиг бенчмарков в сторону реальных корпоративных сценариев: Вместо синтетических заданий, агенты начинают проверять в имитации того, как они справятся с профессиональными задачами:

      • WebArena (CMU) моделирует онлайн-шопинг: агент совершает покупки в симулированном веб-окружении.

      • CUGA (IBM) тестирует «универсального агента» в пользовательских рабочих сценариях (например, навигация «по сайтам») и занимает лидирующую позицию с 62 % успеха.

      • SWE-bench и SWE-Lancer проверяют ИИ-агентов на реальных GitHub-issues и попытках «зарабатывать как фрилансер», ставя перед ними задачу написания кода с учётом новых требований.

      • τ-bench и PaperBench оценивают навыки «научных» и «потребительских» агентов в задачах поддержки клиентов и исследованиях.

      • OSWorld, AppWorld и CRMWorld требуют, чтобы агентам одновременно работали с таблицами, запускали код и анализировали данные продаж, моделируя сложные бизнес-кейсы.
        Несмотря на все эти усилия, даже лучшим агентам удаётся успешно выполнить лишь около 5 % кейсов, что свидетельствует о том, насколько «зрелость» технологий ещё далека от идеала.

    • Рекомендации по улучшению оценок агентов для ускорения развития технологий:

      1. Гранулярность оценки: Вместо сверки только «ответ/не ответ», важно инспектировать промежуточные шаги рассуждений агента (аналогично частичному оцениванию в школьных тестах), чтобы выявлять «узкие места» в логике.

      2. Измерение эффективности с учётом затрат: Многие современные бенчмарки акцентируют внимание на точности и игнорируют стоимость — вычислительные ресурсы, использование токенов, задержки. Необходимы «паритетные метрики», которые позволят сравнивать агентов не только по результату, но и по реальной экономической целесообразности их развертывания.

      3. Автоматизация оценочного процесса: «Агент оценивает агента» (agent-as-a-judge) и инструменты вроде IBM EvalAssist помогут уменьшить трудозатраты людей-оценщиков и ускорить сбор данных о производительности. Кроме того, использование ИИ-сгенерированных данных сделает сценарии более разнообразными и реалистичными.

      4. Фокус на безопасности и доверии: Появляются специальные тесты вроде AgentHarm (выпытать, сможет ли агент отказаться от этических ограничений) и ST-WebAgentBench, имитирующий высокорискованные бизнес-приложения, где от надёжности и соблюдения норм зависит успех всего процесса.

  • Рост доходности на одного сотрудника благодаря ИИ-агентам: Согласно отчету PwC, с 2022 года в отраслях, активно использующих ИИ (например, технологии и телеком), выручка на одного работника выросла на 27 %, что более чем в три раза превышает рост в секторах, менее готовых к ИИ (8,5 %). Это означает, что внедрение агентных систем не просто оптимизирует отдельные процессы, а кардинально меняет производительность труда, повышая ценность каждого сотрудника.

  • Быстрая отдача от ИИ-агентов и переформатирование операционных моделей: PwC отмечает, что 79 % компаний уже используют ИИ-агентов, и у двух третей из них (66 %) эти системы демонстрируют измеримый эффект через рост продуктивности. 88 % руководителей планируют увеличить бюджеты на ИИ в ближайшие 12 месяцев именно из-за потенциала “агентного” ИИ, способного действовать автономно и масштабироваться через модульный код. Это указывает на смещение не просто к автоматизации отдельных задач, а к построению новых операционных моделей, где люди и ИИ-агенты работают в одной «команде» через платформы (например, «Agent OS»), а не просто внедряют ИИ для «усовершенствования» старых процессов.

  • Интеграция агентов в пользовательские устройства как следующий фронтир конкуренции: В интервью WIRED генеральный директор Perplexity Аравинд Шринивас утверждает, что ИИ-агенты станут «убийственным» приложением для всего — от поиска до e-commerce, и что ключ к популярности агентов лежит через их глубокую интеграцию в смартфоны и другие устройства. Партнерство с Motorola, благодаря которому Perplexity будет поставляться на Razr Ultra, иллюстрирует стремление сделать «доступный ИИ» повсеместным. Это заметно меняет представление о взаимодействии с ИИ — от пассивного «вопрос-ответ» к активному “агентному” сценарию, где ИИ может сам бронировать билеты, заказывать еду и решать рутинные задачи по предпочтениям пользователя.

  • Важность открытых API и взаимодействия с экосистемой приложений: Шринивас подчеркивает, что ключевым ограничением современных ИИ-агентов является отсутствие глубокой интеграции с приложениями (например, невозможность напрямую работать с Uber или DoorDash без дополнительных SDK) wired.com. Только открытые и стандартизированные интерфейсы позволят агентам «тянуть» данные и совершать транзакции полностью на фоне, делая опыт пользователя по-настоящему бесшовным. Без этого большая часть обещанного агентного сценария — «сделай за меня» — остается теоретической, потому что агент не может полноценно взаимодействовать с экосистемой сторонних сервисов.

  • Необходимость надежности и доверия для ИИ-агента: Perplexity фокусируется на точности и проверяемости ответов, поскольку ошибочные или вводящие в заблуждение агенты несут угрозу не только пользовательскому опыту, но и безопасности данных. Даже если ошибки случаются редко, «отрицательный компаундный эффект» неверных рекомендаций может подорвать доверие и стать опасным. Поэтому главным конкурентным преимуществом агентов станет не просто их функциональность, а то, насколько они прозрачны и способны корректно «объяснить» свои действия.

  • ИИ-агенты как «корпоративные граждане»: McKinsey предлагает рассматривать ИИ-агентов на уровне структурного элемента организации — подобно тому, как компании управляли бы персоналом, стоит управлять ИИ-агентами. Это означает выделение четкой «заработной платы» в виде полной стоимости владения (IT-системы, обучение моделей, оркестрация), формулирование «должностных обязанностей» (описание задач агента и метрики эффективности), регулярную «оценку производительности» (анализ точности, скорости и удовлетворенности), а также внедрение механизмов доверия и аудита (этические рамки, прослеживаемость решений, защитные «выключатели»). Такой подход переводит ИИ-агентов из «экспериментальных инструментов» в полноценные «сотрудники», чья работа оценивается наравне с людьми.

  • Структурирование «умных операций» (smart ops) с учетом разных типов агентов: McKinsey выделяет четыре категории ИИ-агентов, каждая из которых заточена под определенный вид задач:

    1. Task-level Agents: выполняют строго определенные повторяющиеся задачи от начала до конца (например, обработка возвратов или перенос встреч).

    2. Autonomous Problem-Solver Agents: решают несколько этапов работы, требующих элементарного суждения, но в рамках четко заданных границ (например, проверка прав на подписку и отправка уведомлений).

    3. Model Orchestrator Agents: работают как «менеджеры цифровых процессов», координируя взаимодействие между другими агентами и системами, собирая и обобщая данные в реальном времени.

    4. Domain-Specific Agents: специализированы для ключевых функций бизнеса (например, ИИ-агент для службы поддержки или анализа финансов) и оптимизированы под конкретные цели.
      Параллельно McKinsey выделяет новые роли людей в «умных операциях» — Custodians (туда входят те, кто следит за качеством данных и моделей), Judgment Holders (те, кто берут на себя прецедентные решения, требующие «человеческого нюанса»), а также Approvers и Auditors (обрабатывают исключительные случаи и обеспечивают соответствие нормативам). Таким образом, компании выстраивают «гибридную» операционную модель, где люди и ИИ-агенты дополняют друг друга.

  • ИИ-агенты как источник стратегических инсайтов через «демократизацию» данных: В McKinsey отмечают, что «умные операции» превращают каждый контакт с клиентом и каждую транзакцию в ценную информацию, которую агенты способны анализировать в реальном времени, выявляя системные проблемы или новые тренды раньше, чем об этом «услышит» руководство. Например, в банковской сфере агенты могут обнаруживать неочевидные отклонения в платежных потоках по регионам и предлагать меры до того, как это станет заметно людям. Таким образом роль ИИ-агентов выходит за рамки чистой автоматизации — они становятся «датчиками» для стратегического управления.

  • Развитие инфраструктуры и культуры: требования к успешному внедрению: Чтобы агентные системы приносили пользу, компании должны модернизировать свою ИТ-архитектуру, внедрить сквозные потоки данных и обеспечить «живую» интеграцию между подразделениями. Помимо технических изменений, McKinsey ставит в приоритет задачи культурного характера: прозрачность коммуникаций, готовность руководства моделировать нужное поведение и обучение сотрудников («AI literacy», системное мышление), чтобы снизить сопротивление и закрепить доверие к «цифровым работникам». Без этого агентная революция рискует остаться «нестабильным экспериментом» вместо нового операционного стандарта.

И в заключении фрагмент интервью с Сэмом Альтманом, в котором он говорит о том, что кривая роста когнитивности моделей останется в том виде в котором мы ее наблюдали последние годы, по крайней мере в течение следующих 5 лет!

А это значит, что все оптимистичные прогнозы имеют еще больше вероятности, чем еще вчера.

Рекомендую вам самим посмотреть этот фрагмент интервью с Сэмом Альтманом на Snowflake Summit 2025

***

Альфред Лао. Новые Инсайты. Айвентор Клуб.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Какие темы вам более интересны?
20% Внедрение ИИ-агентов в бизнес-процессы1
20% Оценка эффективности и бенчмарки ИИ-агентов1
40% Интеграция агентов с внешними сервисами и API2
20% Этика, безопасность и доверие к ИИ-агентам1
40% ROI и экономический эффект от ИИ-агентов2
60% Гибридная модель «человек + агент»3
60% Отраслевые кейсы и практические примеры3
Проголосовали 5 пользователей. Воздержались 2 пользователя.
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Когда вам удобнее читать дайджест за неделю?
33.33% Пятница1
0% Суббота0
33.33% Воскресенье1
33.33% Понедельник1
Проголосовали 3 пользователя. Воздержался 1 пользователь.
Теги:
Хабы:
Всего голосов 8: ↑7 и ↓1+6
Комментарии0

Публикации

Ближайшие события