Эволюция чат-ботов на базе LLM: от GPT-2 до многоагентных систем / Хабр

Примерно полгода назад, когда я присоединился к команде AI, я начал более близкое знакомство с системами, построенными на базе LLM. Наши прототипы различных решений на LLM заставили меня задуматься о том, как они развиваются. И я понял, что развитие этих систем в целом повторяет эволюцию чат-ботов. Здесь я хочу простым языком рассказать, как развивались чат-боты, их возможности и как они работают сейчас.

1. Первые LLM: генерация текста на основе вероятностей (2018–2019)

LLM научились генерировать текст, продолжая введённую последовательность слов. Фактически модель просто выбирает следующее слово на основе вероятности появления этого слова в данном контексте.

Пример:
Если начать текст с фразы “Сегодня я пошёл в”, модель может продолжить “магазин, чтобы купить хлеб”, подбирая слова, которые чаще всего встречались вместе с введёнными в обучающем наборе данных.

2. Память и работа с контекстом (2020–2021)

Что изменилось:
Модели научились учитывать историю сообщений. При каждом новом запросе к модели передаётся история предыдущих сообщений, и она использует её как контекст для генерации ответа.

Пример:
Если сначала спросить: “Расскажи о продукте X”, а потом: “А что насчёт второго пункта?”, модель понимает, что «второй пункт» относится к продукту X, и даёт согласованный ответ.

3. Chain of Thought (2022)

Что изменилось:
Модели научились показывать цепочку рассуждений, а не просто выдавать готовый ответ. По сути, это промпт, в котором передаётся история диалога и предыдущие шаги рассуждений, и модель генерирует следующий логический вывод. Этот процесс повторяется шаг за шагом до получения финального результата.

Пример:
Если нужно понять, сколько будет 23 × 47, модель может сначала показать шаги рассуждений:

23 × 40 = 920
23 × 7 = 161
920 + 161 = 1081

Раньше модель могла сразу выдать неправильный ответ, создавая впечатление «тупости». Цепочка рассуждений делает процесс прозрачным для пользователя и позволяет корректировать выводы на каждом шаге.

4. Retrieval-Augmented Generation (RAG) (2022 осень)

Что изменилось:
С ростом объёма данных возникла необходимость работать с конкретной доменной информацией, которая не входит в общий набор данных обучения. Появился подход RAG: модель получает релевантные фрагменты из внешней базы (например, векторной) и комбинирует их с запросом.

Пример:
Модель обучена на общей информации о медицине. Но если нужно ответить на вопрос по внутреннему исследованию компании, она сначала находит релевантные документы в базе данных, а затем строит ответ, используя найденные фрагменты.

5. Инструменты (Tools) (2022–2023)

Что изменилось:
Модель получила возможность вызывать внешние инструменты: интернет, базы данных, API, код, изображения.

Как это работает:

В промпт модели передаётся список доступных инструментов.
Модель выбирает, какой инструмент использовать и с какими параметрами.
Код приложения вызывает инструмент с этими параметрами.
Результат возвращается обратно в модель, чтобы она могла сделать вывод.

Human-in-the-loop:
Для важных действий модель может запрашивать подтверждение у человека (например, сохранение или модификацию файла), меняя интерфейс взаимодействия и повышая безопасность решений.

Пример:
Модель может сгенерировать SQL-запрос для обновления базы. Перед выполнением она спрашивает пользователя: “Выполнить запрос?” и ждёт подтверждения.

6. Многоагентные системы (2023)

Что изменилось:
Один агент уже не мог эффективно справляться с комплексными задачами. Сложные промпты занимали несколько страниц: исправление их для одного запроса ухудшало результаты для других. Многоагентные системы разделяют задачи между агентами с разными ролями и инструментами.

Пример:
Один агент собирает информацию, другой анализирует данные, третий составляет отчёт. Такая архитектура позволяет решать сложные задачи, где один агент ограничен памятью или контекстом.

7. Унификация инструментов: MCP (2024)

Что изменилось:
Появился единый протокол Model Context Protocol, позволяющий подключать любые инструменты к LLM через стандартизированный интерфейс. Таким образом можно подключать новые инструменты к чатботу который поддерживает MCP без изменения кода чатбота.

Пример:
Аналитическая платформа может подключить LLM к своей CRM, базе документов и календарю через MCP, и модель сможет использовать эти источники без отдельной настройки каждого.

8. Взаимодействие агентов: A2A (2025)

Что изменилось:
Появился протокол Agent-to-Agent (A2A), стандартизирующий обмен информацией между разными системами и агентами.

Пример:
Агент поддержки клиента может переслать запрос агенту бухгалтерии и получить готовый отчёт, а пользователь видит единый диалог.

9. Ближайшее будущее

Собрав несколько прогнозов о будущем чат-ботов и AI-агентов, можно выделить 5 ключевых направлений развития. GPT предложил список прогнозов, и мне показалось любопытным, что они совпадают с тем, что я наблюдаю у нас в компании.

Стандартизация протоколов (MCP и аналоги) — появляются общие стандарты, которые позволяют чат-ботам подключаться к любым приложениям и данным через единый интерфейс.

В нашей команде мы начали вести список доступных в компании MCP и разумеется это только начало, будут появляться inventories MCP и агентов.

Универсальные агенты — один бот может выступать как менеджер задач, аналитик, помощник по работе с документами и т. д., динамически подбирая роль.

Уже сейчас я наблюдаю проблему, что в компании появляются десятки чатботов, если так будет продолжаться дальше, то это приведет к огромным затратам на их дальнейшую разработку и поддержку, поэтому я представляю что появится супер чатбот который на базе intent recognition будет форвардить запросы разным агентам, но для пользователя будет один интерфейс. Думаю, что эта тема заслуживает отдельной статьи.

Глубокая интеграция в пользовательский интерфейс — чат-боты перестают быть «отдельным окошком» и становятся доступными в любой точке приложения (например, прямо внутри сложной формы или рабочего процесса).

Недавно я обсуждал с дизайнерами интерфейс приложения где они добавили на первом этапе AI которому пользователь может наговорить описание проекта и AI предзаполнит настройки приложения. После этого пользователь работает в обычном интерфейсе. Это хороший кейс того, как AI не должен интегрироваться. Очевидны недостатки такого подхода, когда пользователь не может исправить допущенные ошибки с помощью AI ассистента. Будущее — это AI, доступный на каждом шаге, а не только на входе.

Человеко-машинное взаимодействие (Human-in-the-loop) — системы всё чаще требуют подтверждения критических действий (сохранение, удаление, изменения в БД), чтобы повысить надёжность.

С моей точки зрения интерфейс, который сейчас используется в Windsurf или GitHub Copilot который позволяет общаться по своему текущему проекту, вносить изменения, но по критическим действиям запрашивает подтверждения пользователя, это прообраз будущей глубокой интеграции AI ассистентов в приложения.

Автономные многоагентные системы — боты начинают работать как команды агентов, распределяя задачи между собой без участия человека, а пользователь видит только итоговый результат.

Вероятно, именно такие системы станут следующим скачком — от помощников к полноценным командам агентов, в нашей команде мы только начинаем задумываться о подобных системах.

А вы замечаете похожие тренды в своей работе? Какой из них кажется вам самым перспективным? Интересно будет узнать ваше мнение об эволюции AI систем в ближайшем будущем в комментариях.

Эволюция чат-ботов на базе LLM: от GPT-2 до многоагентных систем