vsradkevich 5 мая в 00:46

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Средний

15 мин

4.6K

Искусственный интеллектМашинное обучение * Natural Language Processing * Сжатие данных * Big Data *

Аналитика

Современные большие языковые модели (LLM) достигли впечатляющих результатов, но остаются громоздкими и статичными. Они требуют огромных вычислительных ресурсов и не умеют самостоятельно запоминать новый опыт в долгосрочной перспективе. В ближайшие годы нас ожидает переход от этих монолитных систем к персональным интеллектуальным агентам – компактным и адаптивным моделям, способным учиться на ходу. Ниже мы рассмотрим ключевые направления развития архитектур LLM, которые открывают путь к таким агентам: долговременная память на основе «mem-векторов», модульные трансформеры, легкое дообучение на местных данных, внешние хранилища знаний с семантическим поиском, новые методы повышения эффективности и запуска на пользовательских устройствах, а также решение проблем конфликтующих знаний и галлюцинаций. Текущие достижения, ограничения и перспективы в этих областях показывают, как сделать ИИ не только больше, но и умнее.

Mem-векторы: долгосрочная память для LLM

Одно из главных ограничений классических трансформеров – отсутствие явной долговременной памяти. Модель оперирует лишь контекстом фиксированной длины и “забывает” все, что выходит за эти пределы. Увеличение окна контекста (как в GPT-3 с 2k токенами) даёт выигрыш, но быстро упирается в квадратичный рост вычислений. Поэтому исследователи разрабатывают подходы, позволяющие моделям запоминать информацию в виде специальных векторов памяти (mem-векторов), которые могут храниться и вызываться по мере необходимости, не перегружая основной контекст.

Архитектура LongMem (2023) предложила разбить процесс на две части: базовый LLM остаётся замороженным и служит энкодером памяти, а рядом обучается отдельная сеть-читатель, которая извлекает и включает сохранённые сведения. При обработке длинного текста LongMem сохраняет кей-векторы и вэлью-векторы внимания из определённых слоёв в банк долговременной памяти. Затем при ответе на новые запросы модель с помощью специальных запросов извлекает из банка релевантные ключевые векторы и «вспоминает» соответствующее содержимое, расширяя свой контекст. Этот подход позволил эффективно использовать до 65 тысяч токенов прошлой информации – на порядок больше, чем у обычных LLM. Иными словами, LongMem научился работать с практически неограниченной историей, не теряя в качестве ответов.

Другие работы идут ещё дальше, сжимая знания в чрезвычайно компактный вид. В недавнем исследовании 2025 года показано, что предварительно обученный LLM можно использовать как декодер, способный восстановить длинный фрагмент текста из одного или нескольких векторов памяти. Специальные [mem]-векторы оптимизируются для каждого документа так, чтобы модель могла по ним реконструировать исходные токены. Это своего рода ультра-сжатие знаний в скрытом пространстве. Экспериментально удалось упаковать до 1568 токенов текста в единичный вектор, добившись при декодировании высокого качества. На графике ниже видно, сколько токенов удаётся «запомнить» разным моделям: например, 1.3-миллиардная LLaMA хранит порядка 384–512 токенов, а более крупная 8-миллиардная модель – уже свыше 1000 токенов.

Рис. 1: Вместимость памяти у моделей разного размера. По оси Y – максимальная длина текста (в токенах), которую модель способна закодировать в один [mem]-вектор с приемлемым качеством восстановления. У более крупных LLM объём информации, вмещаемой в вектор, значительно выше (красная звезда – экспериментальный рекорд ~1568 токенов).

Быстрое порождение и использование mem-векторов. Для практической долговременной памяти мало уметь сохранять информацию – нужно делать это эффективно и оперативно. Персональному агенту потребуется специальный энкодер, который в реальном времени превращает новые данные (тексты, диалоги, наблюдения) в векторы памяти. Такой энкодер может быть упрощённой версией самого LLM или отдельной моделью, обученной “свёртывать” входной текст до компактного представления. Подход LongMem, описанный выше, фактически использует сам LLM в роли энкодера скрытых состояний. Альтернативой являются более лёгкие компрессоры: например, метод LLMLingua (2023) последовательно сжимает промпт, достигая 20-кратного уменьшения длины почти без потери качества. В будущем подобные механизмы позволят агенту быстро обновлять свою память при каждом новом опыте – будь то прочитанная статья или разговор с пользователем. Ключевой вызов здесь – баланс между степенью сжатия и точностью восстановления. Тем не менее, тенденция очевидна: хранить знания во внешней памяти значительно эффективнее, чем бесконечно раздувать параметры самой модели.

Модульные трансформеры: разделение знаний и мышления

Помимо внешней памяти, ещё один путь к эволюции LLM – модульность архитектуры. Классический трансформер – монолит: все знания и способности “размазаны” по миллиардам весов, что затрудняет обновление и понимание работы модели. Исследователи предлагают разбивать модель на логические модули, отвечающие за разные аспекты – например, отделить блок, хранящий фактические знания, от блока, выполняющего рассуждение над ними.

Недавняя концепция “Transformer 2.0” именно это и делает: вводится глобальная база знаний, к которой модель обращается через обобщённый механизм кросс-аттенции. По сути, обычный feed-forward слой трансформера переосмысливается как частный случай обращения к внешней памяти. В такой схеме слой внимания извлекает необходимые факты из общего хранилища знаний (наподобие дифференцируемой базы данных), а остальные слои решают, как эти факты использовать для ответа. Теоретически доказано, что стандартный полносвязный слой можно рассматривать как скрытый вызов внутренней “памяти” модели. Если же сделать эту память явной и раздельно обучаемой, мы получим более прозрачную и адаптируемую архитектуру, где можно расширять знания без переобучения ядра рассуждений. Такая модульность приближает ИИ к человеческому принципу: мы приобретаем новые знания (книги, заметки) не перестраивая с нуля мозговые нейронные связи, а пополняя содержание памяти.

Другой пример модульного подхода – смеси экспертов (Mixture-of-Experts). В моделях MoE некоторые слои заменяются на множество «экспертных» подсетей, из которых для каждого входа активируется лишь несколько лучших. Это позволяет увеличить совокупное число параметров (то есть объем знаний) без пропорционального роста вычислений для одного запроса. В контексте персональных агентов, можно вообразить набор модулей-экспертов: личные факты пользователя, мировые энциклопедические знания, навыки по разным доменам. Трансформер-агент мог бы динамически подключать нужный модуль, сохраняя высокую скорость. Первые шаги в эту сторону уже есть – например, работа SnapKV (2024) хранит ключи и значения памяти отдельно для каждого слоя и головы внимания. Хотя в исходном варианте SnapKV столкнулась с высокой задержкой из-за множества операций поиска, усовершенствованная модель M+ (2024) сумела совместно обучить ретривер и язык модели, ускорив поиск по скрытым состояниям. В результате долгосрочное удержание знаний возросло с 20 тыс. до 160 тыс. токенов без увеличения потребления памяти GPU – впечатляющий пример масштабируемости модульной памяти. Такие работы показывают, как разделение модели на компоненты (память, эксперты, решатель) повышает её гибкость и долголетие знаний.

Персонализация без полного переобучения

Чтобы персональный ИИ-агент действительно был персональным, он должен адаптироваться под пользователя – обучаться на локальных данных, учитывать стиль и предпочтения, обновлять знания о новой информации. Однако полное дообучение LLM на каждом новом датасете невозможно: миллиарды параметров требуют слишком много ресурсов и времени, кроме того, есть риск забывания старого при обучении новому (катастрофическая забывчивость). Решение пришло в виде техник Parameter-Efficient Fine-Tuning (PEFT) – параметро-эффективного дообучения, где обновляется лишь малая часть весов или добавляются небольшие модули.

Одной из популярных техник стала LoRA (Low-Rank Adaptation) – низкоранговая адаптация. Вместо того, чтобы менять полноценную матрицу весов в каждом слое трансформера, LoRA вставляет к ней небольшое дополнение, представляющееся в виде произведения двух тонких матриц. Базовые веса остаются неизменны, а обучаются только дополнительные матрицы и , так что эффективная весовая матрица становится $W + \alpha \cdot A B$ . Число новых параметров при этом ничтожно мало – часто порядка 1% от исходных. Например, добавив через LoRA всего ~1% параметров, можно адаптировать большую модель под новую задачу практически без потери качества относительно полного fine-tuning. Важно, что оригинальные знания модели при этом сохраняются – мы не “переписываем” старые веса, а накладываем на них небольшую поправку. Благодаря этому снижается риск забыть ранее выученные факты при обучении на новых данных.

Другой подход – вставка обучаемых адаптеров (Adapters) в каждый блок трансформера. Адаптер – это небольшой дополнительный слой, который обучается на новых данных, в то время как основной блок замораживается. По сути, адаптеры превращают монолитную сеть в модульную: для каждой новой задачи или датасета можно обучить свой набор мини-слоёв и подключать их при необходимости. Схожим образом работают методы prefix-tuning и prompt-tuning, где не изменяются веса модели, а подбираются специальные виртуальные токены-промпты, направляющие модель. Все эти техники делают обновление LLM гораздо более доступным – по оценкам, LoRA-адаптация 7-миллиардной модели требует в десятки раз меньше ресурсов, чем классическое дообучение. Более того, комбинация этих методов с квантованием (см. следующий раздел) позволила исследователям тонко настроить даже 65-миллиардный LLaMA всего на одной GPU 48 ГБ без потери качества. Появляются и удобные инструменты: библиотека PEFT для PyTorch, поддержка LoRA в Hugging Face Transformers, интеграция в TensorFlow и др. – всё это позволяет разработчикам применять PEFT буквально в несколько строк кода.

Для персонального агента такие средства означают, что он может обучаться на ваших данных локально, не отправляя их в облако. Например, загрузив базовую модель, пользователь способен на своем компьютере дообучить небольшой адаптер на переписке или заметках – и агент начнёт говорить в свойственном пользователю стиле, зная при этом только то, чему его научили (важно для приватности). Причём, поскольку исходные веса не изменяются, можно держать несколько разных адаптаций и по ситуации переключаться между ними. Так, одна и та же LLM с разными LoRA-надстройками может выступать как эксперт по программированию, как личный помощник по расписанию или как рассказчик – достаточно менять подключаемый модуль, не дублируя всю модель. Персонализация выходит на новый уровень гибкости: обновляя доли процента параметров, агент впитывает новые знания или черты, оставаясь тем же универсальным интеллектом.

Однако важно помнить о границах таких методов. Хотя они значительно уменьшают затраты, адаптация очень больших моделей даже с PEFT всё ещё не тривиальна для обычного пользователя. Кроме того, бесконтрольное добавление новых фактов через fine-tuning может привести к увеличению галлюцинаций – об этой проблеме мы поговорим в финальном разделе. В целом же параметро-эффективные техники – мощный инструмент, делающий обучение ИИ более инкрементальным и непрерывным, что особенно ценно для персональных агентов.

Семантическая память: ключ-значение и поиск знаний

Другой краеугольный камень будущих агентов – умение работать с внешней базой знаний через механизм поиска. Вместо хранения всех фактов в параметрах модели, агент может искать нужную информацию в хранилище – похожим образом, как мы сами пользуемся поиском в интернете или справочнике. В области LLM такой подход получил название Retrieval-Augmented Generation (RAG) – генерация с дополнением через поиск. Идея RAG в том, что перед формированием ответа модель делает запрос к внешнему источнику (например, базе документов или векторному индексу) и получает оттуда релевантные сведения, которые добавляются к входному промпту. Модель остаётся неизменной, все обновления происходят только во внешней базе – то есть знания “отвязываются” от весов модели.

Преимущества такого подхода очевидны. Во-первых, агент всегда может быть в курсе последних данных: достаточно добавить новые документы в базу знаний, и ответы тут же начнут их отражать. Не нужно заново тренировать модель при каждом обновлении информации – достаточно обновить индекс. Во-вторых, RAG часто даёт более точные результаты на фактических вопросах, чем даже дообучение модели на том же материале. Модель опирается на большой внешний корпус текстов, который можно сделать сколь угодно обширным (миллионы документов) без роста размера самой модели. Исследования показывают, что объединение LLM с поиском позволяет лучше воспроизводить редкие факты и уменьшает галлюцинации за счёт подкрепления ответа найденными источниками. По сути, RAG превращает языковую модель в поискового агента, синтезирующего ответ на основе актуальных данных.

Сегодня уже есть богатый набор инструментов для такой семантической памяти. Существуют продвинутые векторные базы данных – например, FAISS, Milvus, ElasticSearch, Qdrant и др. – которые позволяют быстро искать похожие векторы среди миллионов записей. Обычно конвейер RAG выглядит так: исходный запрос преобразуется энкодером (например, SentenceTransformer) в embedding; затем выполняется поисковый запрос по базе, возвращающий топ-N ближайших документов; эти документы прикрепляются к запросу и отправляются в генеративную модель. Такой подход уже применяется на практике, например, в поддержке клиентов (чатбот ищет по базе знаний компании) или в поисковых системах (как Bing Chat, которое комбинирует поиск по вебу с GPT).

Важно подчеркнуть, что семантический поиск по памяти не ограничивается текстом. Персональный агент может хранить различную информацию: структурированные данные, логи действий, профили пользователей. Ключ-значение хранилище способно содержать не только документы, но и, скажем, векторы состояний – снимки внутреннего мышления агента, которые потом можно восстанавливать для контекста. Уже сейчас обсуждаются специализированные системы управления памятью для агентов, которые будут работать как своеобразная база данных знаний, опыта и контекста, накопленного ИИ. В частности, в опросе экспертов (2024) по архитектурам персональных LLM-агентов отмечается необходимость в менеджерах памяти с векторными базами для хранения долгосрочного «опыта» агента.

Конечно, RAG и подобные методы не лишены недостатков. Они повышают сложность системы: помимо модели, нужно поддерживать ещё и быстрый поисковый движок, синхронизировать обновления, следить за качеством данных в индексе. Добавляются задержки – каждый запрос требует времени на поиск, что может быть ощутимо при больших базах. Тем не менее, инженеры активно оптимизируют этот процесс, используя асинхронный поиск, кеширование результатов и т.д.. В перспективе, выигрыш от актуальности знаний и экономии ресурсов на обучение перевешивает эти сложности. Персональный агент с внешней памятью сможет обладать куда большим объемом актуальных знаний, чем любой закрытый в своих весах LLM. Его «память» легко расширяется – добавлением новых данных, и легко чистится – удалением или исправлением устаревших фактов, что критически важно для достоверности.

Эффективность и запуск на устройствах пользователя

Чтобы технологии, описанные выше, стали по-настоящему массовыми, модели должны стать более компактными и быстрыми. Будущий персональный ассистент, вероятно, будет работать прямо на вашем ноутбуке или смартфоне, а не на удалённом сервере. Это требует огромной работы по оптимизации LLM – уменьшения размеров, ускорения вывода и снижения потребления ресурсов без потери возможностей.

Одно из ключевых направлений здесь – квантизация весов моделей. Путём снижения разрядности представления чисел (с 16-битных до 8-, 4- или даже 2-битных) можно радикально сократить объём памяти, занимаемый моделью. Например, популярная 7-миллиардная модель LLaMA-2 в 4-битном формате занимает всего ~4 ГБ и может выполняться на офисном ПК без специализированной видеокарты. Появились библиотеки (вроде bitsandbytes), позволяющие загружать модели напрямую в сжатом формате. Исследование от Meta AI (QLoRA, 2023) показало, что 4-битная версия 65B модели при правильном подходе к обучению достигает качества полноразрядной. Это означает, что даже очень большие LLM становятся доступными для запуска на одной высокопроизводительной видеокарте, а более мелкие – и вовсе на CPU мобильного устройства.

Другой подход – знаниеная дистилляция и облегчённые модели. Здесь большую модель-«учителя» используют для обучения меньшей модели-«ученика», которая приближается по качеству, но намного экономичнее. Так появились, к примеру, сжатые варианты GPT-2 и GPT-3, облегченые трансформеры для мобильных. Прогресс в этой области пока не полностью сохраняет все способности оригиналов, но базовые навыки понимания и генерации удаётся перенести. Вероятно, комбинация методов (дистилляция + квантизация + оптимизированная архитектура) позволит получить лёгких персональных агентов, конкурирующих с «гигантами» в полезности.

Оптимизация архитектуры тоже играет роль. Исследуются альтернативы классическому самовниманию (self-attention), которые масштабируются лучше на длинных последовательностях – от методов приближенного внимания (как в Longformer, BigBird) до возвращения рекуррентных сетей в связке с трансформерами. Например, модель RWKV пытается объединить лучшие черты RNN и трансформера для снижения вычислительных затрат. Кроме того, асинхронные и потоковые режимы позволяют агенту обновлять ответы по мере считывания ввода, вместо разовой обработки всего запроса – это снижает задержку и требования к памяти.

Отдельно стоит упомянуть выгоду модульности и внешней памяти для эффективности. Если часть знаний хранится вне модели, саму модель можно сделать меньше, поручив детализацию фактов внешнему поиску. Персональный агент может иметь относительно небольшое «ядро» (скажем, 6–10 млрд параметров), но при этом подключаться к огромной базе знаний по запросу. Это напоминает, как человек с обычной памятью компенсирует ее, пользуясь библиотеками и интернетом. Такой гибридный подход потенционо даёт лучшее из двух миров: модель, достаточно лёгкую для локального запуска, и фактическую базу знаний, масштабируемую облачно или распределённо.

Наконец, запуск на пользовательских устройствах – это не только удобство, но и приватность. Все вычисления и данные остаются на вашей стороне, что соответствует тренду на защиту персональных данных. Уже сегодня существуют проекты и библиотеки (например, Llama.cpp), позволяющие запускать LLM локально даже на смартфонах. Конечно, пока что это упрощённые сценарии, но техника развивается стремительно. Можно ожидать, что через несколько лет флагманский телефон или ноутбук сможет в реальном времени выполнять персонального ассистента с моделью, эквивалентной нынешним GPT-3, а то и GPT-4, особенно если учесть прогресс в специализированном «AI-аппаратном обеспечении» (нейронные чипы, ускорители).

В итоге, эффективность – ключ к персонализации. Только сделав модели компактными и быстрыми, мы сможем интегрировать их повсюду – от бытовых устройств до автомобилей – и дать каждому пользователя собственного мощного ИИ-помощника.

Рис. 2: Концепция персонального ИИ на вашем устройстве. Будущие оптимизации позволят запускать большие языковые модели локально – прямо на ноутбуках и смартфонах, сохраняя приватность данных и снижая задержки.

Конфликт знаний и галлюцинации: вызовы большого мозга

По мере того как у модели растёт объём памяти и разнообразие источников знаний, возникает новая проблема – конфликтующие сведения и галлюцинации. Если агент черпает информацию из разных мест (веса основной модели, внешняя база, пользовательские заметки и пр.), велика вероятность, что эти данные могут противоречить друг другу. Например, встроенные знания LLM могут устареть и расходиться с более свежей информацией во внешней памяти – это называется конфликт «контекст vs. память». Возможен конфликт между разными фрагментами контекста (например, два документа в памяти дают разные ответы на вопрос) или внутренний конфликт в памяти (когда сама модель в ходе обучения вобрала противоречивые сведения). Исследования указывают, что такие конфликты подрывают доверие к ответам ИИ и могут привести к некорректным результатам. Агент в сущности может запутаться, какому знанию верить.

Разрешение конфликтов знаний – непростая задача, над которой сейчас активно работают. Один подход – явное указание приоритетов: например, свежая информация из памяти должна превосходить по весу старые параметрические знания модели, или наоборот, модель может «не доверять» непроверенным источникам. Другой подход – добавление в контекст метаданных (источников, временных меток) и использование методов логического вывода для согласования фактов. Возможны гибриды с символическими системами или knowledge graph, которые будут выступать арбитрами, проверяя ответы на непротиворечивость известным фактам. Пока это отрытая проблема, но сама её постановка говорит о взрослении LLM: модель перестаёт быть тупым статистическим предсказателем и приближается к управляющей своей памятью системе.

Галлюцинации – явление, когда модель уверенно придумывает несуществующие факты – тоже могут обостриться с увеличением памяти. Казалось бы, наоборот: больше знаний – меньше пробелов, где ИИ может додумать от себя. Однако на практике, если механизм извлечения памяти не совершенен, модель может получить нерелевантный или частичный контекст и на этой почве «додумать» остальное. Либо, столкнувшись с конфликтующими сведениями, она может сгенерировать смесь, не соответствующую ни одному из источников. Интересно, что даже попытки дообучить модель на новых фактах могут приводить к росту галлюцинаций – видимо, из-за нарушения изначального баланса знания и языковых шаблонов. Поэтому исследователи ищут способы контролировать достоверность генерации. RAG-подход частично решает проблему, так как модель опирается на конкретные документы – это снижает вероятность вымысла. Также помогают методы пост-верификации: генерация нескольких вариантов ответа и выбор консенсусного, дополнительная проверка фактов через поиск, или даже запуск второго «критического» модели для оценки правдивости первого.

В будущем персональные агенты, вероятно, будут сочетать несколько уровней проверки знаний. Можно представить себе систему, где основной LLM делает черновой ответ, затем обращается к своей же базе знаний для подтверждения каждого утверждения, исправляя себя при расхождениях. Кроме того, поддержание консистентности знаний станет отдельной задачей: агенты должны уметь забывать или помечать устаревшую информацию, чтобы не учитывать её при принятии решений. Идеи из теории баз данных (например, механизм TTL – time to live для фактов, или версионность знаний) могут найти применение и в нейронных системах памяти.

Подводя итог, проблема галлюцинаций и конфликтов – это издержки роста возможностей. Больший «мозг» нуждается в лучшей саморегуляции. По мере того, как архитектуры LLM станут сложнее и приобретут память, им понадобится и модуль «здорового скептицизма» – умение сомневаться, перепроверять и придерживаться логики. Решение этих вопросов критически важно для доверия к персональным ИИ. Радует, что сообщество осознаёт эту задачу: появляются обзоры и классификации видов конфликтов знаний, предлагаются подходы к их смягчению. Вероятно, в ближайшие годы мы увидим прогресс и в этой области, делающий агентов более надёжными собеседниками.

Заключение: от больших моделей к умным агентам

Мы рассмотрели ряд технологий, формирующих облик будущих трансформеров и LLM-агентов. Каждое направление – память, модульность, персонализация, внешние знания, эффективность – по-своему уменьшает разрыв между нынешними моделями и желаемыми персональными ассистентами. Вместо единого громоздкого «разума в коробке» вырисовывается образ живого, обучающегося ИИ, который:

Запоминает долгосрочно – важные сведения сохраняются в его векторной памяти, доступной при необходимости.
Учится локально – новые навыки и факты добавляются через небольшие дообучаемые модули, без перестройки всего мозга.
Черпает знания извне – встроен механизм поиска по собственной базе знаний или интернету, чтобы всегда иметь актуальную информацию.
Работает повсюду – достаточно лёгок для запуска на пользовательских устройствах, автономен и приватен.
Остаётся последовательным и правдивым – умеет соотносить новые данные со старыми, избегать логических противоречий и предупреждать собственные ошибки.

Персональные агенты, вооружённые такими возможностями, обещают стать революцией в повседневной жизни. Они превзойдут нынешних голосовых помощников так же, как современные LLM превзошли простые чат-боты прошлого десятилетия. Конечно, многое ещё предстоит исследовать и отладить. Но вектор задан чётко: будущее ИИ – не в бесконечном наращивании параметров, а в умном сочетании моделей с памятью и обучением. Как метко заметил один из исследователей, «будущее ИИ – это не просто более крупные модели, а более умная и эффективная память». Каждый пользователь заслуживает ИИ, который помнит и понимает его. И судя по прогрессу, техническая основа для этого сейчас быстро складывается – шаг за шагом, проект за проектом. Будущее трансформеров действительно преобразится, и на смену громоздким моделям придут личные агенты, расширяющие возможности каждого из нас.

Хабы: