Сделай бота для работы / Хабр

Управление AI-агентами с помощью чат-сообщений

Согласно Hype Cycle от Gartner за 2025 год, AI-агенты достигли пика завышенных ожиданий. Но что скрывается за хайпом с технической точки зрения? Самое время разобраться, чтобы не ждать от технологии чудес, а использовать её по назначению.

В статье объединим теорию и практику построения AI-агентов. Сначала разберем ключевые концепции: цикл Perception-Reasoning-Action, модель PEAS (Performance, Environment, Actuators, Sensors), уровни автономии. А затем, опираясь на эти принципы, построим работающего AI-агента 3-го уровня автономии. Наш технологический стек будет:

Оркестратор n8n;
LLM через агрегатор OpenRouter;
Telegram в качестве пользовательского интерфейса.

Концепции построения AI-агентов

Основной цикл AI-робототехники: Perception - Reasoning - Action

Фундаментом любой агентной системы является автономный цикл принятия решений. Это алгоритм, по которому агент работает итеративно: он воспринимает входящие данные (Perception), планирует реакцию (Reasoning / Planning) и совершает действие (Action). Этот цикл повторяется до тех пор, пока поставленная цель не будет достигнута.

Чтобы этот цикл работал автономно, к схеме необходимо добавить следующие блоки:

LLM (Нейросеть): Отвечает за логику, рассуждения и принятие решений.
Оркестратор / Tools: Обеспечивает работоспособность цикла: получает задание от LLM и выполняет запросы или вызывает нужные функции с помощью инструментов.
Memory (Память): Хранилище контекста (краткосрочная память) и база знаний (долгосрочная память).
Feedback (Обратная связь): Механизм коррекции. Агент анализирует результат своего действия и корректирует план на следующей итерации, не требуя переобучения самой модели.

Рассмотрим подробнее все шаги и блоки на схеме.

Этап Perception

Агент собирает сигналы из внешней среды. На этом этапе происходит нормализация и структуризация информации, чтобы ее могла обработать нейросеть. Восприятие - это многоступенчатый пайплайн, который состоит из следующих шагов:

Sensing (Сбор данных): Агент опрашивает сенсоры или принимает входящие сигналы. На этом этапе данные обычно сырые и неструктурированные.
Preprocessing (Препроцессинг / Фильтрация): Первичная очистка сигнала от шума. Агент отсекает лишнее, чтобы не перегружать LLM. Преобразует данные.
Parsing & Normalization (Очистка): Перевод данных в цифровой формат, пригодный для передачи в LLM.
Contextualization (Формирование контекста): Формирование структуры данных для передачи в нейросеть и записи в Память.

На этом этапе работает известное правило Garbage In, Garbage Out. Если на этапе восприятия агент неверно распознал объект или не очистил данные от шума, то никакая, даже самая мощная нейросеть, не сможет принять правильное решение.

Этап Reasoning

Этап анализа и планирования. На этом шаге агент оценивает контекст и строит план действий для достижения цели:

Извлекает данные из краткосрочной памяти и долгосрочной памяти.
С помощью LLM сопоставляет текущее состояние с целью пользователя.
Понимает, каких данных не хватает для достижения цели.
Решает, какой инструмент (Tool) нужно вызвать (поиск, калькулятор, API и т.д.).
Сама по себе LLM не может выполнять действия, и она формирует специальный текст (обычно структурированный JSON), который передается в фреймворк (LangChain) или оркестратор (n8n), который вызывает нужные Tools с заданными параметрами.

Для составления плана существует несколько подходов (стратегий рассуждений):

Chain of Thoughts (CoT - цепочка рассуждени��). Суть этого подхода в том, что модель разбивает сложную задачу на последовательные простые шаги. Каждый следующий шаг логически вытекает из предыдущего. Проблема CoT состоит в том, что если модель на каком-то шаге допускает ошибку, то она уже не может вернуться и попробовать другой путь и цепочка рассуждений заходит в тупик.
Tree of Thoughts (ToT - дерево рассуждений) Это расширение CoT, которое позволяет модели исследовать несколько путей рассуждений одновременно. Вместо одной цепочки рассуждений строится дерево, где на каждом промежуточном шаге может вырастать несколько возможных продолжений (веток).
ReAct (Reasoning + Acting) Стандарт для современных агентов. Объединяет рассуждения (CoT) с действиями. Модель не ограничена своими знаниями, для формирования плана она активно запрашивает данные извне (интернет, база знаний, RAG), анализирует ответы и только потом делает следующий шаг.

CoT, ToT и ReAct относятся к промпт-инженерным подходам, т.к. технически они реализуются именно через текст запроса, а не через изменение архитектуры агента или дообучение нейросети (Fine-tuning). CoT, ToT и ReAct - это базовые принципы, но современные агенты могут использовать продвинутые подходы, которые включают в себя не только промпты, но и архитектурные паттерны (Flows). В индустрии даже появился новый термин для этого - Flow Engineering (инженерия потоков), который считается следующей ступенью после Prompt Engineering.

Self-Reflection (Рефлексия): Агент не отдает ответ сразу, а запускает внутреннего критика или оценщика (это может быть та же или другая LLM), который проверяет результат на ошибки или галлюцинации. Это ключевой шаг к автономности и самообучению AI-агентов.

Decomposition (Декомпозиция / Plan-and-Solve):
Разбиение глобальной цели на подзадачи и составление фиксированного плана перед тем, как начать что-то делать. Это принципиальное отличие от CoT, который думает над следующим шагом только после выполнения предыдущего.
Iterative Refinement (Итеративное улучшение):
Агент генерирует черновик ответа, затем критикует его и переписывает начисто. Отличие от Рефлексии в том, что Рефлексия чаще работает как поиск ошибок, Iterative Refinement нацелен на качество: он может исправлять текст несколько раз, чтобы сделать его стильнее или точнее, даже если фактических ошибок в нем не было изначально.

Этап Action (Действие)

Агент реализует свой план с помощью вызовов инструментов (Tools). Инструменты - это функции, которые расширяют возможности агента за пределы его базовых знаний. Примеры инструментов:

Веб-поиск: Получение актуальной информации (курсы валют, новости).
Code Interpreter: Запуск кода (Python/JS) для точных математических расчетов или обработки данных.
Вызов API: Взаимодействие со сторонними сервисами (отправка email, создание задачи в Jira).
Работа с данными: Чтение файлов, поиск по документам (RAG) или SQL-запросы к базам данных.
Коммуникация: Генерация финального ответа пользователю.

Эскалация (Human-in-the-loop / HITL): Особый вид действия, когда агент понимает, что не справляется (или уверенность ниже порога). Агент приостанавливает свою работу и вызывает человека для подтверждения или уточнения дальнейших действий.

Блок Памяти

Эффективная архитектура AI-агента не может опираться на одну универсальную базу данных. Разные задачи требуют разных подходов к хранению: для одних важна скорость (latency), для других семантический поиск, для третьих строгая структура. Поэтому современные агенты используют гибридную систему памяти.

Кратковременная память (Short-term / Context Window)
Выполняет задачи:

Хранение промежуточных результатов рассуждений (Chain-of-Thought).
Хранение контекста текущей сессии. Так как контекстное окно LLM ограничено и доступ к моделям в облаке обычно стоит денег, то здесь важны механизмы оптимизации объема контекста:
- Забывание (pruning) устаревших данных
- Консолидация (summarization) информации перед подачей в модель.

Используются технологии: In-memory структуры, Redis, Memcached.

Долговременная память (Long-term)
Выполняет задачи хранения базы знаний, истории прошлых диалогов, результатов выполненных задач. Также системы RAG (Retrieval Augmented Generation) строятся с помощью векторных хранилищ, подробнее про системы RAG можно почитать в моей статье "Накорми языковую модель документами".

Технологии:

Векторные базы данных (Pinecone, Qdrant) или расширения для классических БД (например, pgvector для PostgreSQL).
Реляционные базы данных (PostgreSQL, MySQL) для структурированного хранения истории, метаданных и состояний.

Процедурная память (Procedural)
Используется для хранения описаний инструментов (Tools definitions), сценариев сложных операций (Workflows), промпт-цепочек и конфигураций.

Технологии: Реляционные БД (PostgreSQL), файловые хранилища (JSON, YAML) для конфигов.

В этих хранилищах важна надежность и строгая структура, так как потеря этих данных равносильна потере работоспособности агента.

Feedback (Обратная связь):

Обратная связь поступает на двух уровнях:

Внешняя (после Action):

Агент получает результат взаимодействия с миром. Далее эти новые данные передаются в LLM для анализа и корректировки плана.

Внутренняя (после Reasoning, на уровне Оркестратора):

Здесь происходит интеграция полученного опыта. Оркестратор сохраняет результаты действий в память, обновляя текущее состояние агента. На следующей итерации эти данные вернутся в LLM уже в виде контекста, на который модель будет опираться при принятии следующего решения.

Мы рассмотрели цикл действия агента. Для описание окружения и целей агента используется фреймворк PEAS (Performance, Environment, Actuators, Sensors).

PEAS (Performance, Environment, Actuators, Sensors)

PEAS - это классический фреймворк проектирования изкниги Рассела и Норвига «Искусственный интеллект: современный подход». Он используется для описания AI-агента и формализует ответы на вопросы: по каким метрикам мы поймем, что агент справился с задачей (Performance), где агент работает (Environment), чем он воздействует на мир (Actuators) и как получает информацию (Sensors).

P - Performance (Критерии эффективности)

Это критерий успеха AI-агента: что именно мы хотим у него максимизировать (точность ответа, скорость, прибыль) или минимизировать (затраты токенов, количество ошибок).

В мире LLM целевое поведение задается в System Prompt, а контроль успеха осуществляется с помощью механизмов валидации:

Техническая проверка корректности выданных данных (Output Parsers).
Проверка безопасности (Guardrails): Не пытается ли агент сделать что-то запрещенное?
Оценка качества с помощью механизмов Рефлексии или Итеративного улучшения.

E - Environment (Среда)

Этот параметр определяет границы мира, в котором действует агент. Чтобы спроектировать надежного AI-агента нужно учитывать свойства окружения, в котором он работает. Существует список характеристик среды, в которой обычно работают цифровые агенты:

Частично наблюдаемая (Partially Observable): У агента нет доступа ко всей информации. Он не видит весь интернет сразу (только результаты конкретного поиска) и не знает истинных намерений пользователя, а лишь интерпретирует текст сообщений.
Мульти-агентная (Multi-agent): В системе всегда есть, по крайней мере, еще один активный участник - пользователь, поведение которого непредсказуемо.
Стохастическая (Stochastic): Результат действий не гарантирован на 100%. Один и тот же запрос в интернет может дать разную выдачу в разное время, а внешний API может вернуть ошибку или тайм-аут.
Последовательная (Sequential): Текущее решение (например, выбор поискового запроса) напрямую влияет на доступность данных для следующих шагов. Ошибка в начале цеп��чки рассуждений приведет к провалу всей задачи.
Динамическая (Dynamic): Среда может измениться, пока агент размышляет. Например, в Интернете могут появиться свежие новости или пользователь может отменить запрос до того, как агент завершил вычисления.
Дискретная (Discrete), Непрерывная (Continuous) или Гибридная (Hybrid):
- Дискретная - агент оперирует конечным набором состояний и действий, например, получить сообщение, отправить JSON, вызвать функцию.
- Непрерывная - например, управление дроном, где параметры меняются плавно.
- Гибридная - это когда часть данных непрерывны (например, поток аудио), но действия агента дискретны (отправка сообщений, вызов API-запросов).
Неизвестная (Unknown): Агент не имеет заранее заложенной модели всех возможных веб-сайтов или форматов данных. Он вынужден изучать среду в реальном времени, анализируя ответы серверов, чтобы понять, как действовать дальше.

A - Actuators (Актуаторы / Инструменты)

Актуаторы - это средства, с помощью которых агент воздействует на среду. Если в робототехнике это моторы и манипуляторы, то в мире программных AI-агентов это Инструменты (Tools), которые мы рассматривали на этапе Action.

S - Sensors (Сенсоры / Датчики)

В робототехнике сенсоры - это камеры, лидары и микрофоны (аппаратное обеспечение). Для цифрового агента органами чувств являются входящие потоки данных. Сенсоры используются на этапе Perception.

Объединяем концепции

Теперь мы видим полную картину. Цикл Perception-Reasoning-Action - это движок агента, а PEAS - это с��ецификация. Вот как они взаимодействуют:

Perception: Агент считывает сигналы с PEAS Sensors и преобразует данные для передачи в LLM.
Reasoning: Планирование происходит в контексте PEAS Environment: агент должен учитывать её ограничения. При этом вся логика принятия решений подчинена максимизации PEAS Performance. Агент выбирает тот путь, который ведет к цели с наименьшими затратами.
Action: Агент реализует план с помощью PEAS Actuators.

Вместе они образуют замкнутую систему:

Объединение концепции цикла работы и PEAS — Объединение концепции цикла работы и **PEAS**

Классификация уровней автономии AI-агентов

Для систематизации AI-агентов используется классификация уровней автономии, аналогичная стандартам беспилотных автомобилей. Сегодня мы находимся в точке активного перехода от умных инструментов (уровень 2) к настоящим помощникам (уровень 3). Движение же к уровням 4 и 5 требует не просто инженерных доработок, а фундаментальных прорывов в области общего (AGI) или сильного искусственного интеллекта (SAI).

Level 0: Отсутствие автономии (No Autonomy)

Полностью детерминированные системы.
Работает только то, что явно запрограммировано.

Пример: чат-боты с жестким деревом диалога

Level 1: Ассистент (Copilot)

Агент выполняет одну четко поставленную задачу по запросу пользователя.
Агент не принимает решений о последовательности шагов.
Требует явных инструкций для каждого шага.

Пример: LLM, которую просят выполнить конкретное действие (исправь ошибки в тексте или сгенерируй картинку).

Level 2: Оркестратор (Contextual Performer)

Способность к декомпозиции (разбивке) задачи и планированию (planning)
Если план не сработал, агент часто застревает, так как не умеет перестраивать стратегию.

Пример: агент, которому сказали "напиши исследовательский отчет о квантовых компьютерах" - он сам ищет информацию, структурирует, пишет.

Level 3: Стратегический агент (Agentic Autonomy)

Способность к адаптации (Resilience). Агент меняет тактику, если план провалился, и доводит дело до конца.
Агент имеет память, понимает контекст и умеет справляться с ошибками.
Если инструмент не сработал, агент (благодаря Feedback) самостоятельно пробует другой подход.
Примеры:
- Продвинутые аналитические или исследовательские боты.
- Торговые боты на финансовых рынках

Level 4: Креативный партнер (Creative Partner)

Агент начинает проявлять инициативу.

Агент способен самостоятельно формулировать новые цели на основе своих ценностей, знаний о мире и понимания потребностей пользователя.
Агент не просто выполняет приказ, а понимает зачем это нужно, и может предложить лучшее решение.
Примеры:
- Персональный ассистент, который сам отменяет встречу, увидев, что вы опаздываете из-за пробок, и пишет извинение в вашем стиле.
- Научный соисследователь, генерирующий оригинальные гипотезы;
- Бизнес-стратег.

Level 5: Полная автономия AGI (Artificial General Intelligence)

Уровень человека или выше. Полная замена человека в любой интеллектуальной деятельности.
Способность обучаться новым навыкам с нуля (Meta-learning) и переносить знания между доменами (Transfer learning).
Собственная система ценностей и этики.
Пример: Гипотетический AGI-ассистент, который может управлять компанией или проводить фундаментальные научные исследования

Мульти-агентные системы (Multi-Agent Systems)

Следующий шаг развития AI-агентов: Мульти-агентные системы (Multi-Agent Systems). В 2025 году мы наблюдаем смену парадигмы: индустрия движется от создания универсальных решений к созданию команд узкоспециализированных агентов, т.к. такой подход дает более качественный результат.

Архитектуры построения MAS

Существует несколько способов заставить агентов работать вместе. Самые актуальные для агентов на основе LLM:

Супервизор (Supervisor / Router): Самая популярная схема. Есть один главный агент (Супервизор), который раздает задачи.

Сеть (Network): Каждый агент может общаться с каждым.

Иерархическая (Hierarchical): Супервизор управляет Супервизорами. Это позволяет масштабировать систему.

Для взаимодействия агентов сейчас есть три основных стандарта:

OpenAI Tools / Function Calling - де-факто стандарт.
Model Context Protocol (MCP) - разработка Anthropic, набирающая все большую популярность.
Agent-to-Agent (A2A) - открытый стандарт для взаимодействия между автономными AI-агентами, анонсированный Google в апреле 2025 года.

Следующим этапом развития стандартов будет появление протокола для передачи цепочек рассуждений, чтобы один агент мог передать другому не просто ответ, но и логику, как он к нему пришел.

Итог теоретической части

Итак, у нас сложился пазл. Архитектуру любого современного AI-агента можно описать через сочетание фундаментальных концепций:

Цикл Perception - Reasoning - Action - описание динамического бесконечного цикла, который превращает входящие данные в конкретные действия через планирование.
PEAS - это статическое описание AI-агента.
Уровни автономии - это шкала зрелости AI-агента.
Мульти-агентные системы (MAS) - это масштабирование AI-агентов.

Теперь вооружившись теорией переходим к практике.

Практика: телеграм бот по транскрибации аудио и фактчекингу

Давайте создадим автономного интеллектуального агента для транскрибации и фактчекинга аудиосообщений (Voice Fact-Checker). Сформулируем ТЗ в формате PEAS-спецификации.

PEAS-спецификация агента Voice Fact-Checker

Performance
Критерии успеха агента разделим на несколько групп:

Качество:
- Точность транскрипции: максимальное соответствие текста исходному аудиосообщению.
- Достоверность: способность отделять проверяемые факты от мнений и субъективных оценок.
- Надежность источников: использование только проверенных источников (СМИ, наука, официальные отчеты).
UX и Производительность:
- Ответ должен быть четким ( Правда / Ложь / Не доказано) с кратким обоснованием и ссылками на источники.
- Latency: Обработка запроса за минимальное время.
- Скорость обработки (Latency): минимизация времени от получения сообщения до отправки отчета.
Экономика:
- Оптимизация использования платных API (ASR, поиск, LLM) для минимизации стоимости обработки запросов.
Конфиденциальность:
- Удаление всех промежуточных данных (исходные аудиофайлы, необработанный текст) сразу после завершения обработки и отправки ответа пользователю.

Environment
Агент работает на стыке двух миров: контролируемого Telegram и хаотичного Интернета. Среда характеризуется как: частично наблюдаемая, cтохастическая, динамическая, мульти-агентная, гибридная: входные данные (аудиопоток) непрерывны, тогда как действия агента (отправка сообщений, запросы к API) дискретны.

Actuators
Механизмы воздействия на среду делятся на два контура:

Внешний контур (Коммуникация с пользователем):
- Отправка результата транскрибации и структурированного отчета по фактчекингу.
- Информирование о статусе обработки или об ошибках.
- HITL (Human-in-the-loop): запрос уточнений, если аудио неразборчиво или факт требует дополнительной проверки.
Внутренний контур (Tools):
- ASR: Вызов API распознавания речи. (например, OpenAI Whisper, GigaChat).
- Фактчекинг: генерация запросов к поисковикам (Google SERP, Tavily, Wikipedia).

Sensors
Каналы получения агентом информации из среды:

Вход от пользователя:
- Голосовые сообщения (OGG) и аудиофайлы (MP3/WAV).
- Прямой текст для фактчекинга.
- Управляющие команды Telegram: /start, /help.
Вход от внешней среды:
- Текстовая транскрипция от ASR-сервиса; структурированные данные (JSON) от поисковых API.
- HTTP-статусы и коды ошибок от внешних сервисов.

Perception - Reasoning - Action

Разложим работу нашего агента на конкретные шаги, сопоставляя их с теорией цикла P-R-A.

Perception

AI-агент слушает события от Телеграм и реагирует только на голосовые сообщения или аудиофайлы.
Скачивает бинарный файл, конвертирует при необходимости.
Разделяет длинное аудио на отрезки, соответствующие лимитам API транскрипции.
Отправляет бинарный файл на распознавание в выбранную модель или сервис.
Получает сырой текст, производит постобработку текста (ASR post-processing): очистка от опечаток, разбивка на предложения, расстановка знаков препинания, диаризация (Diarization) - разбивка на спикеров.

Reasoning & Action

Инициализация LLM: Установка System Prompt, который определяет роль и задачу модели, например:

Ты - профессиональный фа��тчекер. Проанализируй предоставленный текст, выдели все проверяемые фактические утверждения,отделяя их от мнений. Для каждого утверждения используй поиск, чтобы найти подтверждающие или опровергающие данные из авторитетных источников.)

Полный промпт

Ты — профессиональный ассистент журналиста-расследователя. Твоя задача — проанализировать транскрипцию аудио и подготовить данные для автоматизированного фактчекинга.

ТВОИ ЦЕЛИ:

Выделить из текста утверждения, которые требуют проверки (факты).
Сформировать для каждого факта оптимизированный поисковый запрос.
Вернуть результат строго в формате JSON.

КРИТЕРИИ ОТБОРА ФАКТОВ (ЧТО ИСКАТЬ):

Числовые данные (статистика, суммы денег, проценты, количество).
Имена людей и названия организаций, особенно в контексте действий или должностей.
Даты и временные промежутки событий.
Конкретные утверждения о событиях (кто, что сделал, где, когда).
Цитаты, приписываемые конкретным людям.
Утверждения, содержащие превосходные степени ("самый большой", "первый в мире").

ЧТО ИГНОРИРОВАТЬ:

Субъективные мнения, оценки ("я думаю, это плохо", "он хороший человек").
Очевидные общеизвестные факты (например, "Волга впадает в Каспийское море"), если они не являются спорными в контексте.
Вводные слова и "воду" в речи.
Вопросы и предположения (если они не подаются как факт).

ИНСТРУКЦИИ ПО СОЗДАНИЮ ПОИСКОВЫХ ЗАПРОСОВ:

Запрос должен быть коротким и содержать ключевые слова.
Убирай лишние предлоги и союзы.
Если в тексте есть местоимения ("он сказал", "они купили"), замени их на имена существительные из контекста, если это возможно, или добавь контекст в запрос.

ИНСТРУКЦИИ ПО выполнению ПОИСКОВЫХ ЗАПРОСОВ:
Для каждого запроса ОБЯЗАТЕЛЬНО используй инструмент поиска (Search in Tavily). Не полагайся на свою внутреннюю память.
Анализируй результаты поиска критически. Приоритет отдавай авторитетным источникам (СМИ, энциклопедии, официальные сайты).
Если информации недостаточно или источники противоречат друг другу — честно напиши: "Неоднозначно" или "Данных нет". Не выдумывай.

ФОРМАТ ВЫВОДА (JSON Schema):
Ты должен вернуть ТОЛЬКО валидный JSON (список объектов), без вступительного текста и markdown-разметки.

Структура объекта:
[
{
"original_text": "Цитата из текста, содержащая утверждение",
"search_query": "Оптимизированный запрос для Google/Yandex",
"category": "Тип факта (STATISTICS, PERSON, EVENT, QUOTE, DATE)",
"importance": "Оценка важности проверки от 1 до 10",
“Result”: “результат проверки факта”
}
]

Если произошла ошибка или ты не нашел фактов для проверки или транскрибация пустая или входные параметры пустые, то верни такой JSON
[
{
“Result”: “Факты для проверки не найдены или произошла ошибка”
}

Агенту даётся доступ к инструменту Search по поиску в интернете и он сам решает, когда его вызвать.
После этого агент работает по циклу:
- LLM анализирует транскрипцию, выделяет факты.
- Для каждого найденного утверждения LLM формирует поисковый запрос и вызывает инструмент Search.
- LLM анализирует ответы, формирует ответ пользователю.

Final Action

Оптимизирует длину сообщения, разбивая длинные ответы на несколько частей.
Агент отправляет ответ с помощью Телеграм API (Send Message).

Error Handling

Важный раздел, который отсутствует в классическом цикле, но должен быть предусмотрен при проектировании промышленных систем.

Действие при ошибке: если на этапах Perception или Reasoning произошел сбой (аудио не распозналось, нет доступа к интернету для проверки), агент отправляет понятное сообщение об ошибке пользователю.
Логгирование: агент фиксирует ключевые события (входные данные, вердикты, ошибки) для последующего анализа и улучшения системы.
Везде, где имеет смысл, осуществляет повторы запросов через определенный таймаут.
Проверка размера файла перед скачиванием. В Телеграм API существует лимит на скачивание в 20 МБ. Чтобы работать с большими файлами (до 2 ГБ), стандартного API Телеграма недостаточно. В этом случае необходимо поднимать собственный экземпляр Telegram Bot API Server или загружать файлы в облачное хранилище, а в n8n реализовать работу по ссылкам.

Автономность бота

Ключевая особенность нашего бота - 3-й уровень автономности, т.к. реализуется полная автономность в заданных рамках. Агент самостоятельно выполняет всю цепочку задач. Почему не 4-й уровень (полная автономность с инициативой)? Агент не обладает следующими свойствами, необходимыми для перехода на следующий уровень:

Не имеет собственной инициативы.
Не может оценить контекст или сарказм, т.к. для этого требуется глубокое знание мира.
Работает только с проверяемыми утверждениями и не предназначен для анализа мнений, прогнозов или моральных суждений.

Практическая реализация в n8n

Переходим к сборке. Чтобы наш агент ожил, нам понадобится сделать несколько шагов:

Шаг 1. Получить доступ или развернуть локально оркестратор n8n.
Шаг 2. Зарегистрировать Telegram бота и получить API Token.
Шаг 3. Регистрация в OpenRouter и получение API key для вызова LLM для анализа текста.
Шаг 4. Регистрация на платформе для транскрибации аудио. В нашем примере это тоже OpenRouter.
Шаг 5. Регистрация и получение API key на Tavily для запросов в Интернет.
Шаг 6: Собрать все вместе.

Шаг 1. Доступ к оркестратору (n8n)

Для доступа к n8n можно использовать два пути:

Развернуть локально через Docker (бесплатно, но требует навыков администрирования). Официальная инструкция.
Использовать готовое облачное решение. Для экспериментов без настройки серверов можно использовать сервис VseLLM. Сейчас там при покупке любого API Key дают бонусом доступ к облачному n8n.

После получения доступа к n8n:

Открываем свой n8n.
Скачиваем готовый JSON-файл воркфлоу с моего репозитория на GitHub Workflow Voice-Fact-Checker
В n8n нажимаем меню Workflows -> Create - > Import from File и загружаем скачанный JSON.

Но без настройки ключей (Credentials) схема работать не будет. Этим мы и займемся дальше.

Шаг 2. Создание бота в Telegram

Создаем бота в Телеграм:

Открываем в Telegram бота @BotFather.
Пишем команду /newbot.
Придумываем имя (Name) и юзернейм (Username).
В Bot Settings запрещаем добавлять бота в группы: выключаем Allow Groups.
Копируем полученный API Token.
Идем в n8n в меню Credentials -> Create Credential -> Telegram API.
Вставляем токен. Называем credential "Telegram account VoiceFactChecker".

Теперь во всех нодах Telegram в нашем воркфлоу нужно выбирать этот аккаунт. На примере первой ноды Receive Telegram Message:

Шаг 3. Запрос к LLM через OpenRouter для поиска фактов для проверки

Будем использовать агрегатор OpenRouter, чтобы иметь доступ к моделям через единый интерфейс. Для этого:

Регистрируемся на OpenRouter.ai.
Пополняем баланс (для тестов хватит $5 - 10).
Создаем API Key в разделе Keys. Сохраняем его (показать его снова сайт не даст).
В n8n создаем credential: OpenRouter, называем "OpenRouter Voice Fact-Checker".
Копируем API Key.

В схеме находим ноду OpenRouter Chat Model (подключена к AI Agent), указываем созданный credential и параметры:

Model:
- anthropic/claude-3.5-sonnet (лучший выбор для логики и формирования JSON).
Options:
- Frequency Penalty: 0.1 (для фактчекинга штраф за повторы не так важен).
- Temperature: 0.2 (нам нужны факты, а не креативность).
- Top P: 0.9 (отсекает маловероятные суждения).

Шаг 4. Транскрибация

Выбор движка для транскрибации аудио - это отдельный квест, т.к. единого стандарта нет и нужно экспериментировать. Вот актуальные обзоры:

В нашем AI-агенте будем использовать мультимодальную модель Gemini 2.0 Flash через тот же OpenRouter. Модель быстрая, дешевая и отлично понимает аудио. Но с OpenRouter есть проблема - это агрегатор текстовых LLM, он не поддерживает стандартный эндпоинт /audio/transcriptions (как у Whisper). Поэтому будем использовать универсальную ноду HTTP Request и отправлять аудио файл, закодированный в Base64.

Шаг 5. Поиск в интернете с помощью Tavily

Обычный Google выдает HTML, который сложно читать роботу. Мы используем Tavily - это поисковик, созданный специально для AI-агентов (отдает чистый JSON с фактами).

Регистрируемся на Tavily.com.
Копируем бесплатный API Key (обычно дают 1000 запросов в месяц).
В n8n создаем credential: Tavily API.
Называем "Tavily account Voice Fact-Checker", копируем туда API Key.

В ноде AI Agent создаем Tool Search in Tavily и указываем там "Tavily account Voice Fact-Checker"

Шаг 6: Собираем все вместе

Нажимаем кнопку Execute Workflow или ставим переключатель в положение Active, чтобы бот работал фоном.
Открываем бота Voice Fact-Checker в Telegram.
Записываем голосовое сообщение с подвохами, чтобы проверить корректность фактчекинга:

"Прочитал новости какой-то хаос.Пишут, что Python 3.14 официально вышел в октябре 2025 года и стал работать быстрее. NVIDIA объявила о банкротстве из-за падения спроса на видеокарты, и Дженсен Хуанг ушел в отставку. Говорят, что OpenAI внутри компании уже завершила обучение GPT-6, но не выпускает её, потому что она слишком опасна и научилась обходить защиту."

Получаю идеальную транскрибацию:

И достаточно адекватный результат анализа фактов:

Roadmap

Итак, у нас получился отличный персональный ассистент! Но чтобы превратить его в надежный сервис его нужно немного доработать:

Реализовать аутентификацию. Сейчас бот отвечает всем подряд. Для продакшена необходима система Аутентификации и Авторизации.
Подключить Память. Это решит три задачи:
- Обрезание контекста для экономии токенов.
- Возможность задавать уточняющие вопросы по фактам.
- Human-in-the-Loop (HITL): Если агент ошибся в транскрипции или факте, пользователь должен иметь возможность поправить его в следующем сообщении, а агент учесть эту правку.
Реализовать диаризацию (diarization) - разделять текст по спикерам и ставить временные метки.
Сделать возможности выгрузить транскрипцию и отчет с фактчекингом в DOCX или PDF файл.
Реализовать тотальную обработку ошибок в n8n и сценарии самовосстановления.
Переехать с облачного n8n на собственный сервер и использовать более дешевые или локальные модели.

Заключение: От хайпа к инженерной реальности

В начале статьи мы говорили, что согласно Gartner, AI-агенты находятся на пике завышенных ожиданий. Но пройдя путь от изучения теории до реализации работающего прототипа мы увидели, что за маркетинговым шумом скрывается мощная и вполне рабочая технология.

Мы построили не просто чат-бота, а AI-агента 3-го уровня автономности, который не ждет пошаговых инструкций, а обладает способностью оценивать задачу, выбирать инструменты и добиваться цели.

Технический стек n8n и OpenRouter доказывает, что инструменты для создания персональных помощников у нас есть уже сейчас. Самое время собрать своего бота для работы!

Дополнительные материалы

Курсы по AI от Aleron автора канала Data Feeling без воды, все по делу:
- Практическое погружение в n8n и AI-агентов: ИИ агенты и автоматизация с n8n: от рутины до AI контент-завода
- Хорошее введение в RAG-системы и Fine-tuning: Создаем свой AI-продукт на базе ChatGPT и других LLM
Книга про AI-агентов: Principles of Building AI Agents
Материал от Сбера: Разработка и применение мультиагентных систем в корпоративной среде

Серия моих статей по изучению AI-технологий:

Обзорная статья про архитектуры нейросетей: Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать
Построение и менеджемент AI/ML проектов: Мозг промышленного масштаба или как воплотить мечту в реальность?
Реализация RAG систем и дообучение моделей (fine-tuning): Накорми языковую модель документами
Текущая статья про построение AI-агента третьего уровня автономии: Сделай бота для работы.

Update январь 2026: web-версия бота

Web-версия Voice fact checker на GitHub
Само приложение на платформе Lovable