Примерно полгода назад, когда я присоединился к команде AI, я начал более близкое знакомство с системами, построенными на базе LLM. Наши прототипы различных решений на LLM заставили меня задуматься о том, как они развиваются. И я понял, что развитие этих систем в целом повторяет эволюцию чат-ботов. Здесь я хочу простым языком рассказать, как развивались чат-боты, их возможности и как они работают сейчас.
1. Первые LLM: генерация текста на основе вероятностей (2018–2019)
LLM научились генерировать текст, продолжая введённую последовательность слов. Фактически модель просто выбирает следующее слово на основе вероятности появления этого слова в данном контексте.
Пример:
Если начать текст с фразы “Сегодня я пошёл в”, модель может продолжить “магазин, чтобы купить хлеб”, подбирая слова, которые чаще всего встречались вместе с введёнными в обучающем наборе данных.
2. Память и работа с контекстом (2020–2021)
Что изменилось:
Модели научились учитывать историю сообщений. При каждом новом запросе к модели передаётся история предыдущих сообщений, и она использует её как контекст для генерации ответа.
Пример:
Если сначала спросить: “Расскажи о продукте X”, а потом: “А что насчёт второго пункта?”, модель понимает, что «второй пункт» относится к продукту X, и даёт согласованный ответ.
3. Chain of Thought (2022)
Что изменилось:
Модели научились показывать цепочку рассуждений, а не просто выдавать готовый ответ. По сути, это промпт, в котором передаётся история диалога и предыдущие шаги рассуждений, и модель генерирует следующий логический вывод. Этот процесс повторяется шаг за шагом до получения финального результата.
Пример:
Если нужно понять, сколько будет 23 × 47, модель может сначала показать шаги рассуждений:
23 × 40 = 920
23 × 7 = 161
920 + 161 = 1081
Раньше модель могла сразу выдать неправильный ответ, создавая впечатление «тупости». Цепочка рассуждений делает процесс прозрачным для пользователя и позволяет корректировать выводы на каждом шаге.
4. Retrieval-Augmented Generation (RAG) (2022 осень)
Что изменилось:
С ростом объёма данных возникла необходимость работать с конкретной доменной информацией, которая не входит в общий набор данных обучения. Появился подход RAG: модель получает релевантные фрагменты из внешней базы (например, векторной) и комбинирует их с запросом.
Пример:
Модель обучена на общей информации о медицине. Но если нужно ответить на вопрос по внутреннему исследованию компании, она сначала находит релевантные документы в базе данных, а затем строит ответ, используя найденные фрагменты.
5. Инструменты (Tools) (2022–2023)
Что изменилось:
Модель получила возможность вызывать внешние инструменты: интернет, базы данных, API, код, изображения.
Как это работает:
В промпт модели передаётся список доступных инструментов.
Модель выбирает, какой инструмент использовать и с какими параметрами.
Код приложения вызывает инструмент с этими параметрами.
Результат возвращается обратно в модель, чтобы она могла сделать вывод.
Human-in-the-loop:
Для важных действий модель может запрашивать подтверждение у человека (например, сохранение или модификацию файла), меняя интерфейс взаимодействия и повышая безопасность решений.
Пример:
Модель может сгенерировать SQL-запрос для обновления базы. Перед выполнением она спрашивает пользователя: “Выполнить запрос?” и ждёт подтверждения.
6. Многоагентные системы (2023)
Что изменилось:
Один агент уже не мог эффективно справляться с комплексными задачами. Сложные промпты занимали несколько страниц: исправление их для одного запроса ухудшало результаты для других. Многоагентные системы разделяют задачи между агентами с разными ролями и инструментами.
Пример:
Один агент собирает информацию, другой анализирует данные, третий составляет отчёт. Такая архитектура позволяет решать сложные задачи, где один агент ограничен памятью или контекстом.
7. Унификация инструментов: MCP (2024)
Что изменилось:
Появился единый протокол Model Context Protocol, позволяющий подключать любые инструменты к LLM через стандартизированный интерфейс. Таким образом можно подключать новые инструменты к чатботу который поддерживает MCP без изменения кода чатбота.
Пример:
Аналитическая платформа может подключить LLM к своей CRM, базе документов и календарю через MCP, и модель сможет использовать эти источники без отдельной настройки каждого.
8. Взаимодействие агентов: A2A (2025)
Что изменилось:
Появился протокол Agent-to-Agent (A2A), стандартизирующий обмен информацией между разными системами и агентами.
Пример:
Агент поддержки клиента может переслать запрос агенту бухгалтерии и получить готовый отчёт, а пользователь видит единый диалог.
9. Ближайшее будущее
Собрав несколько прогнозов о будущем чат-ботов и AI-агентов, можно выделить 5 ключевых направлений развития. GPT предложил список прогнозов, и мне показалось любопытным, что они совпадают с тем, что я наблюдаю у нас в компании.
Стандартизация протоколов (MCP и аналоги) — появляются общие стандарты, которые позволяют чат-ботам подключаться к любым приложениям и данным через единый интерфейс.
В нашей команде мы начали вести список доступных в компании MCP и разумеется это только начало, будут появляться inventories MCP и агентов.
Универсальные агенты — один бот может выступать как менеджер задач, аналитик, помощник по работе с документами и т. д., динамически подбирая роль.
Уже сейчас я наблюдаю проблему, что в компании появляются десятки чатботов, если так будет продолжаться дальше, то это приведет к огромным затратам на их дальнейшую разработку и поддержку, поэтому я представляю что появится супер чатбот который на базе intent recognition будет форвардить запросы разным агентам, но для пользователя будет один интерфейс. Думаю, что эта тема заслуживает отдельной статьи.
Глубокая интеграция в пользовательский интерфейс — чат-боты перестают быть «отдельным окошком» и становятся доступными в любой точке приложения (например, прямо внутри сложной формы или рабочего процесса).
Недавно я обсуждал с дизайнерами интерфейс приложения где они добавили на первом этапе AI которому пользователь может наговорить описание проекта и AI предзаполнит настройки приложения. После этого пользователь работает в обычном интерфейсе. Это хороший кейс того, как AI не должен интегрироваться. Очевидны недостатки такого подхода, когда пользователь не может исправить допущенные ошибки с помощью AI ассистента. Будущее — это AI, доступный на каждом шаге, а не только на входе.
Человеко-машинное взаимодействие (Human-in-the-loop) — системы всё чаще требуют подтверждения критических действий (сохранение, удаление, изменения в БД), чтобы повысить надёжность.
С моей точки зрения интерфейс, который сейчас используется в Windsurf или GitHub Copilot который позволяет общаться по своему текущему проекту, вносить изменения, но по критическим действиям запрашивает подтверждения пользователя, это прообраз будущей глубокой интеграции AI ассистентов в приложения.
Автономные многоагентные системы — боты начинают работать как команды агентов, распределяя задачи между собой без участия человека, а пользователь видит только итоговый результат.
Вероятно, именно такие системы станут следующим скачком — от помощников к полноценным командам агентов, в нашей команде мы только начинаем задумываться о подобных системах.
А вы замечаете похожие тренды в своей работе? Какой из них кажется вам самым перспективным? Интересно будет узнать ваше мнение об эволюции AI систем в ближайшем будущем в комментариях.