Эволюция и внедрение агентного ИИ: практика, ошибки и риски / Хабр

Складывается впечатление, что агентный ИИ уже вышел за рамки фантастических обещаний и вступил в фазу прагматичной апробации. Так ли это? В статье эксперт онлайн-магистратур Центра «Пуск» МФТИ Денис Прилепский отвечает на этот вопрос и рассказывает, как эволюционировал агентный ИИ и как сегодня технологию внедряют в работу компаний.

Статья разделена на две части. В первой мы уже обсудили, как агентный ИИ переходит из зоны эффектных демонстраций в зону инженерной ответственности. Во второй части (вы сейчас здесь) — поговорим о правилах, рисках и ошибках внедрения технологии в структуру бизнеса.

Кому будет полезно. Статья заинтересует разработчиков, исследователей, инженеров, студентов и предпринимателей, работающих с автономными системами и автоматизацией.

Об авторе. Меня зовут Денис Прилепский. Уже 15 лет работаю в технологическом консалтинге. Моя специализация — архитектура ИТ-систем и трансформация ИТ-ландшафта. За последние пару лет участвовал во внедрении GenAI-решений в высокорегулируемых отраслях (финансы, телеком, здоровье), где особенно важно обеспечить безопасность данных и соответствие требованиям регуляторов. Буду рад поделиться накопленным опытом и наблюдениями.

Реальные кейсы показывают, что внедрение агентного ИИ — это не только технический, но и организационный вызов. Ниже мы рассмотрим лучшие практики и типичные ошибки, которые совершали компании на ранних этапах, а также то, как их избежать.

Перед стартом проекта важно определить конкретный бизнес-кейс и ожидаемый эффект. Агентный ИИ эффективнее там, где можно чётко посчитать результат его работы: сэкономленные человеко-часы, снижение ошибок, рост конверсии, ускорение процесса и т. п. Когда первый агент приносит заметный эффект (например, время тестирования сократилось на 30% или доля решенных с первого обращения задач выросла с 60% до 85%), это ломает скептицизм и мотивирует руководство развивать направление дальше. Наоборот, расплывчатый пилот «просто чтобы попробовать ИИ» без понятных KPI рискует превратиться в бесконечный эксперимент без внедрения. Поэтому разумно начинать с цели и метрик, а не с модели: выбирайте для первого проекта задачу, где есть повторяемый процесс, ощутимая боль, которую можно устранить, и способ измерить успех, а также доступные данные/API для интеграции — там агент раскроется лучше всего. Этот подход позволит быстрее доказать ценность решения и получить поддержку стейкхолдеров для дальнейших инвестиций.

Антипаттерны и способы, как их избегать

Ранний опыт внедрения агентного ИИ выявил ряд характерных ошибок, из-за которых даже многообещающие пилоты терпели неудачу. Перечислим основные антипаттерны и способы их предотвращения:

Завышенные ожидания и размытые цели

Не стоит начинать проект без понимания, какую проблему решаем и как измеряем успех. В 2023–2024 годах некоторые руководители поверили, что «умный агент сам во всем разберется». Они недооценили необходимость подготовки данных, процессов и критериев оценки. На деле без четкого бизнес-кейса и KPI агент либо решает не ту задачу, либо его ценность не очевидна для бизнеса.

Связанный аспект — «магическое мышление»: ожидание, что достаточно подключить мощную модель (например, AutoGPT) к данным компании и она чудесным образом станет супераналитиком без дополнительной настройки. В реальности без обучения модели на специфике вашего домена, тщательной настройки и ограничений агент действует бесполезно или ошибочно.

Как избежать: с самого начала сформулировать конкретную цель (например, сократить время обработки инцидента на N%, автоматизировать X% операций такого-то типа) и критерии успеха проекта. Донести до всех стейкхолдеров, что ИИ — это не волшебная палочка и первая версия решения наверняка потребует доработок. Полезно очертить границы применения: где агенту не стоит работать (поскольку обычный скрипт решит задачу проще и надежнее). Такой трезвый подход убережет от разочарований и поможет команде сфокусироваться на реальном ROI, а не на абстрактных обещаниях.

Проблемы с данными и памятью (garbage in — garbage out)

Автономный агент крайне зависим от данных, которые вы ему предоставляете (в контексте, в памяти, через подключенные инструменты). Если данные неполные, «грязные» или устаревшие, агент неминуемо примет неправильные решения. Многие случаи глупых ошибок ИИ на деле оказываются проблемами данных. К примеру, агент выдал клиенту неверную информацию, потому что в базе знаний содержались устаревшие сведения о продукте. Или модель показала предвзятый результат, потому что обучалась на смещенных исторических данных.

Более того, у агентов появляется уникальный риск — отравление контекста/памяти. Злоумышленник или неосторожный пользователь может подсунуть агенту ложную подсказку (prompt injection) или добавить в базу знаний фальшивую запись, которую агент воспримет как истину и начнет действовать во вред. Известны атаки, когда скрытая команда в описании задачи заставляла агента раскрыть конфиденциальные данные или совершить нежелательное действие.

Как избежать: обеспечить качество данных — перед запуском агента провести ревизию баз знаний, очистить мусор и исправить ошибки. Настроить регулярное обновление и валидацию данных, которыми питается агент. Ограничить и фильтровать ввод: не позволять агенту бесконтрольно поглощать любые текстовые инструкции или большие куски непроверенного контента.

Пропуски в безопасности и управлении рисками

Добавляя в ландшафт автономного агента, компания расширяет потенциальную поверхность атаки. У агента могут быть доступы к десяткам систем, и каждая интеграция несет уязвимости: подмена ответа внешнего API, компрометация токена, брешь в подключаемом коннекторе и т. д.

Появляются новые специфические векторы атак, которых не было в традиционном ПО. Эксперты OWASP выделяют, например, упомянутое выше небезопасное межагентное взаимодействие, когда в мультиагентной среде злоумышленник перехватывает или подделывает сообщения между агентами, вызывая каскадный сбой всей системы.

Другой риск — злоупотребление инструментами: если атакующий сумеет скорректировать цель агента или подсунуть ему вредоносный план, тот может последовательно вызвать вполне легитимные API, но с деструктивным эффектом (например, провести цепочку несанкционированных транзакций).

Наконец, возможны теневые агенты: сотрудники могут начать самостоятельно подключать сторонних ботов или AI-сервисы. Это создаст дыры в контроле и новых «диких» агентов вне установленных правил.

Как снизить риски: применять многоуровневые guardrails — защитные ограничения на каждом этапе. Минимизировать права агента (каждая операция от его имени должна выполняться с минимально необходимыми привилегиями — принцип POLP). Пропускать запросы агента к внешним системам через централизованный шлюз, где настроены белые списки разрешенных действий, лимиты и все, что не соответствует политике, блокируется либо требует подтверждения человека. Обязательно логировать все действия и делать их трассируемыми. Внедрить процедуры валидации новых агентов и моделей перед развертыванием в продакшен. Организовать регулярные аудит и пентесты агентной инфраструктуры. Подход к AI-агентам должен быть столь же серьезным, как и к любому другому критичному ПО. Безопасность и управление рисками — это не опция, а базовый компонент успеха.

Игнорирование человеческого фактора

Новые технологии могут встретить сопротивление команды, особенно если сотрудники опасаются, что автономный ИИ отнимет у них работу или, наоборот, что агент ошибется, а нести ответственность придется людям. Если вовремя не провести разъяснительную работу, агент может оказаться игнорируемым или даже тихо саботируемым персоналом.

Например, сотрудники поддержки могут намеренно обходить агентную систему, продолжая работать по-старому, если не будут уверены в ее надежности. Решение: уделить внимание change management — прозрачно объяснить команде цели внедрения агента. Показать, как он облегчает их работу (снимает рутину, дает новые возможности). Подчеркнуть, что контроль все равно остается за человеком. Хорошей практикой будет вовлечение конечных пользователей и экспертов с самого начала проекта: совместно определить задачи для агента, критерии качества, участвовать в тестировании. Тогда люди будут воспринимать агента как полезный инструмент, а не черный ящик, который пришел их заменить. Ранняя вовлеченность и обучение сотрудников работе с новым «цифровым коллегой» значительно повышают принятие технологии.

Отсутствие мониторинга и поддержки после запуска

Бывает и так, что пилот запустили, первых успехов достигли — и команду переводят на другой проект, оставляя агента как есть. Без постоянного присмотра даже хороший AI-агент со временем начнет сбоить. Маленькие ошибки могут накапливаться, качество решений — деградировать, а доверие пользователей — падать. В результате проект тихо угасает, хотя формально технология внедрена.

Как этого избежать: еще на этапе планирования заложить режим постоянного мониторинга и поддержки агента. Назначить ответственных за наблюдение за метриками качества, анализ логов агента, регулярное обновление его знаний и промптов. Желательно сначала запускать агента в ограниченном режиме (например, в тестовой среде или на непроизводительных данных), где он может без риска допускать ошибки и команда будет их устранять и улучшать систему. После полноценного запуска необходимо внедрить цикл обратной связи: периодически собираться межфункциональной командой (разработчики, аналитики, бизнес, безопасность) и разбирать, что агент сделал не так и как это исправить в настройках или логике. Такой процесс непрерывного улучшения — залог того, что решение останется эффективным и надежным в долгосрочной перспективе.

В работе с агентным ИИ важно помнить: это не единоразовый проект, а новое направление компетенций. Потребуется развивать экспертизу внутри команды, адаптировать процессы, учиться на ошибках. Но в итоге компания получает мощный инструмент, который при правильном обращении способен вывести автоматизацию на новый уровень: от простого выполнения сценариев к автономному достижению бизнес-целей.

Реалистичные ожидания и перспективы внедрения

После пикового ажиотажа 2023–2024 годов пришло понимание, что впереди много работы и трезвой оценки. Исследования Gartner предупреждают: свыше 40% проектов по агентному ИИ будут закрыты к 2027 году из-за растущих затрат, неясной бизнес-ценности или недостатка контроля рисков. В начале 2025 года опрос Gartner показал, что лишь 19% организаций уже серьезно инвестировали в агентный ИИ, тогда как 42% заняли выжидательную позицию. Многие компании попробовали сделать пару PoC и столкнулись с тем, что переход от впечатляющего демо к промышленному решению сложнее, чем ожидалось. Завышенные ожидания сменились отрезвлением: теперь клиенты требуют от новых AI-решений понятного ROI и управляемости.

Действительно, к началу 2026 года в индустрии четко прослеживается поворот от вопросов «Что возможно?» к «Что мы можем реально внедрить и поддерживать?» Фокус с обсуждения абстрактных возможностей смещается на операционализацию и интеграцию агентного ИИ в существующие процессы. Компании ищут прикладную ценность: агентов, которые решают конкретные задачи и приносят измеримую пользу, а не просто демонстрируют чудеса ИИ в вакууме.

Долгосрочный потенциал при этом остается огромным. Gartner прогнозирует, что к 2028 году около 15% повседневных рабочих решений будет приниматься автономными ИИ-агентами и до 1/3 корпоративного софта включит в себя агентные компоненты. Несмотря на трудности первых лет, концепция цифровых коллег сохраняет привлекательность: обещание революции в продуктивности (перехода от автоматизации к автономности) мотивирует бизнес продолжать эксперименты. В ближайшие 2–3 года нас ждет консолидация: появятся проверенные платформы и фреймворки (как когда-то стандартизировались веб-серверы и СУБД), лучшие практики стабилизируются, а лишний шум отсеется.

Отдельно стоит взглянуть на локальный контекст. На российском рынке, хоть он пока отстает по зрелости, прослеживается та же динамика прагматичного подхода. Крупные игроки уже разворачивают собственные решения:

Сбер совместно с Just AI развивает платформу SmartAgent для построения мультиагентных систем.
МТС запустила сервис MWS Agent с оркестратором MWS GPT для анализа данных и планирования.
Cloud.ru предлагает готовых ИИ-агентов для автоматизации продаж и клиентского сервиса.
Яндекс анонсировал инструмент «Нейроаналитик», который представляет собой интеллектуального помощника для бизнес-аналитики.
Платформа Битрикс24 интегрирует поддержку ИИ-агентов прямо в свою экосистему управления бизнесом.

По прогнозам МТС Web Services, к 2027 году до 50% российских компаний будут использовать генеративный ИИ и ИИ-агентов в тех или иных процессах. Этому способствует и курс государства на технологический суверенитет. Локальные вендоры стараются не отставать от мировых трендов, предлагая решения, адаптированные под наши реалии и требования безопасности. Уже разработаны отечественные стандарты (например, ГОСТ Р 57700.37-2021 по цифровым платформам и двойникам), идут инициативы по сертификации ИИ-систем и требования к прозрачности алгоритмов. Рынок готовится приручить агентный ИИ, встроить его в рамки корпоративного управления и закона, прежде чем выпускать на полную мощность.

Как начать сегодня

Если вы еще только присматриваетесь к теме ИИ-агентов, стоит рассмотреть прагматичный минимальный набор. За 3–4 недели получить прототип агента и при этом не заложить архитектурный долг, который потом убьет масштабирование.

Минимальный стек для прототипа (с возможностью вырасти в продакшен):

Модель и API-слой: то, что дает tool calling + state + трассировку. Например, в экосистеме OpenAI это связывается через Responses API и Agents SDK (плюс инструментальные вызовы / трейсы).
Оркестрация: граф/машина состояний для долгоживущих сценариев, где вы заранее задаете точки контроля и фолбэки. Например, LangGraph позиционируется именно как инфраструктура для stateful workflows/agents и поддерживает human-in-the-loop.
Память и retrieval: быстрый RAG (по запросу) и минимальный state store (хотя бы Postgres/Redis), чтобы агент мог возобновлять выполнение и не терять контекст между шагами. Метрики RAG лучше вводить сразу, иначе деградация будет незаметной; для этого есть отдельные инструменты оценки.
Наблюдаемость: трассировка шагов (входы/выходы/латентность/стоимость) и быстрые дашборды. Langfuse дает open-source-трассировку и наблюдаемость LLM-приложений.
Оценка качества и краш-тесты: автоматизированные eval- и red-teaming-сценарии на промптах/агентах. Promptfoo позиционируется как инструмент тестирования промптов, агентов и RAG, включая red teaming.
Safe-by-design: минимум — понимать риск-классы из OWASP LLM Top 10 и OWASP Agentic Top 10 и явно маппить их на guardrails (валидаторы входа, allowlist инструментов, политику доступа, kill switch).

Инструменты open-source, которые чаще всего используют в прототипах и пилотах (по категориям):

Мультиагентные фреймворки: AutoGen (мультиагентные приложения, автономно или с человеком), CrewAI (фреймворк lean multi-agent).
Оркестрация и агенты: LangChain Agents (agent loop до stop-condition), LangGraph (stateful orchestration).
Наблюдаемость: Langfuse (open-source tracing/observability), TruLens (eval + tracing для агентов).
Оценка и тестирование: Ragas (evaluation loops для LLM/RAG), Promptfoo (eval + red teaming).
Guardrails: NeMo Guardrails как open-source toolkit для программируемых ограничителей.

Нужен ли GPU:

Если прототип идет через API управляемых моделей, локальный GPU не требуется, расходы в основном в токенах/запросах и в инженерии интеграций/наблюдаемости.
Если прототипируете on-prem или локально, GPU резко ускоряет цикл итераций. Ollama прямо поддерживает GPU-настройки (и при этом подчеркивает локальный режим работы), llama.cpp поддерживает CPU + GPU гибридный инференс и разные бэкенды. А vLLM в документации по масштабированию советует: если модель помещается на одну GPU, распределенный инференс не нужен — запускайте на этой GPU.

Примерный расход токенов на типовую агентную задачу (оценка порядка величины):

Базовая единица счета — одна итерация: контекст (инструкции + retrieved-данные + состояние) + ответ модели + (возможный) tool-call. Токены — это строительные блоки текста, и их количество зависит от языка, структуры и контекста.
На практике типовая итерация агента на корпоративной задаче (прочитать вход, подтянуть 2–3 факта из KB, выбрать действие, подготовить параметры) часто укладывается в несколько тысяч токенов входа и сотни-тысячу токенов выхода; дальнейший рост идет линейно по числу шагов и по размеру подтягиваемого контекста. Это не константа, а управляемая величина, которую вы должны бюджетировать через лимиты итераций, уменьшение контекста и правильный retrieval.
Если у агента 10–20 итераций на задачу (что типично для сценариев: собрать данные — сравнить — сформировать решение — оформить артефакт), суммарный бюджет легко выходит на десятки тысяч токенов. Это одна из причин, по которым в 2025–2026 годах вендоры активно продвигают трассировку, контроль оркестрации и инструменты оптимизации контекста.

Подводя итоги

Агентный ИИ вышел за рамки фантастических обещаний и вступил в фазу прагматичной апробации. Для реальной пользы нужны:

четко выбранные случаи применения;
прочная архитектура;
продуманное управление рисками;
постепенное наращивание автономности.

В тех сферах, где все элементы складываются правильно, агенты демонстрируют впечатляющие результаты: будь то круглосуточный мониторинг и реакция без участия человека, ускорение аналитики или освобождение сотрудников от рутины для более творческой работы. В ближайшие годы мы станем свидетелями формирования новой ИТ-парадигмы, где рядом с людьми работает целый слой цифровых коллег, интегрированных в бизнес-процессы.

Успеха добьются те компании, которые начнут с малого, но продуманно:

накопят внутреннюю экспертизу и доверие к технологиям;
постепенно превратят громкие идеи в повседневную практику с измеримым эффектом.

Такое поэтапное движение — это единственно верный путь, чтобы эволюция от генерации к действию стала источником реальных конкурентных преимуществ, а не разочарований.

Эволюция и внедрение агентного ИИ: практика, ошибки и риски