
Представьте: вы месяцами обучали языковую модель, она выдает блестящие ответы — и вдруг после загрузки нового датасета словно теряет память и начинает ошибаться в задачах, которые раньше решала без проблем. Знакомо?
Причина такого поведения — не баг, а побочный эффект обучения нейросетей, известный как катастрофическое забывание (catastrophic forgetting). Оно особенно досаждает при тренировке LLM и мощных систем компьютерного зрения, которые приходится регулярно докармливать свежими данными. Увы, с каждым таким апдейтом есть риск, что старая информация «испарится» из модели.
Почему забывание происходит — и всегда ли это нежелательный эффект? Давайте разбираться.
Почему нейросети так внезапно тупят? Природа катастрофического забывания
Catastrophic forgetting — головная боль для всех, кто работает с глубоким обучением. Корень проблемы в фундаментальном конфликте двух ключевых качеств любой нейросети — стабильности и пластичности.
Стабильность — это способность сети сохранять адекватность, не плыть при каждом чихе и выдавать воспроизводимые результаты.
Пластичность — умение подстраиваться под новые данные и задачи. И вот тут начинается боль: чем выше пластичность, тем выше риск того, что старые знания сотрутся, как несохраненный файл в Блокноте.
Математический взгляд на забвение: смещение распределения и дрейф параметров
Чтобы понять природу забывания, нам нужно спуститься на уровень вероятностей. В идеальном сценарии обучение нейросети — это попытка найти такие параметры , которые максимизируют вероятность правильного ответа для всех когда-либо увиденных данных.
С точки зрения байесовской статистики, этот процесс описывается логарифмической версией теоремы Байеса. При обучении на наборе данных мы ищем апостериорное распределение параметров:
Здесь — это правдоподобие, то есть то, насколько хорошо модель с текущими весами описывает данные.
— это априорное знание, информация о параметрах, полученная до встречи с текущими данными. Последнее слагаемое
— это вероятность самих данных, которая является константой и не зависит от параметров модели.
Корень проблемы кроется в том, как мы трактуем эти слагаемые при переходе от одной задачи к другой. Когда мы начинаем дообучение на новой задаче, мы, по сути, максимизируем только правдоподобие для новых данных . При этом мы игнорируем априорное распределение
, сформированное на старой задаче. Мы рассматриваем веса, полученные ранее, лишь как удобную точку старта (инициализацию), но функция потерь новой задачи никак не штрафует модель за уход из области, важной для старых знаний.
Это явление хорошо иллюстрируется через геометрию ландшафта функции потерь. Представьте пространство всех возможных весов нейросети. Для первой задачи существует определенная область параметров, где ошибка минимальна — исследователи называют её «серым регионом».
Для новой задачи тоже есть своя оптимальная область — «синий регион». Когда мы запускаем обучение на второй задаче, градиентный спуск тянет веса из «серого региона» в «синий» по кратчайшему пути. Если эти регионы не пересекаются, веса покидают зону, оптимальную для первой задачи, и старые навыки разрушаются.

В сверточных архитектурах (CNN), которые часто используются в компьютерном зрении, этот процесс имеет свои структурные особенности. Сеть принято разделять на общие параметры (например, сверточные слои, извлекающие признаки) и специфичные для конкретных задач параметры:
для старой задачи и
для новой.
При обучении на новой задаче мы обновляем общие веса чтобы они извлекали признаки, полезные именно для
. Однако классификатор старой задачи
остается зафиксированным. Поскольку входные данные для него — признаки, генерируемые измененными слоями
, — меняют свое распределение, старый классификатор перестает получать корректные входные сигналы и начинает выдавать ошибочные предсказания.
Что происходит с нейросетями при катастрофическом забывании
Дрейф параметров и смещение распределения приводят к резкому снижению качества на предыдущих задачах сразу после начала обучения новым — этот эффект �� называют катастрофическим забыванием. Проявления этого нейросетевого «недуга» можно разделить на три типа:
Деградация производительности. Это самое очевидное последствие: метрики качества на старых задачах летят вниз. В классических экспериментах на CIFAR-10 модели типа ResNet18 без специальных методов защиты теряли до 40% точности при переходе к новым задачам. Даже использование продвинутых техник, таких как буфер повторения (replay buffer) или EWC, позволяло лишь смягчить падение до 5–20%, но не устранить его полностью.
Смещение словаря. В задачах обработки естественного языка модель может полностью «забыть» общеупотребительную лексику в пользу специализированной терминологии. Исследования показывают, что это происходит даже при отсутствии явных триггеров в тексте. Например, после адаптации к медицинским текстам модель может начать некорректно заменять слово «billion» на «million», что критически меняет смысл.
Искажение семантических связей. При адаптации к новой предметной области («домену») модель может начать неправильно интерпретировать контекстные связи. Показательный пример: в медицинских текстах слово «match» используется только как глагол в контексте экспериментов, но после адаптации модель начинает ошибочно применять его как существительное-синоним для слова «game», полностью игнорируя контекст использования.
Особенно интересно, что забывание происходит, даже когда новая задача семантически близка к старой. Например, если разбить датасет CIFAR-100 на группы «водные млекопитающие» (бобры, дельфины и т.д.) и «рыбы», последовательное обучение на этих подмножествах всё равно приведет к затиранию памяти о первой группе, хотя, казалось бы, тема одна и та же.
В реальных приложениях (машинный перевод, диагностика) узкая специализация модели может сделать её непригодной для базовых задач.
Спурийное забывание: нарушение согласования задач
Бывает, что после месяцев обучения языковой модели безопасному поведению с использованием более 100 000 примеров модель в итоге видит всего десяток вредоносных инструкций, а вся предыдущая работа будто идет насмарку. Звучит как классическое катастрофическое забывание — но это не совсем так.
Недавние исследования показали существование дру��ого, более тонкого механизма забывания. Оказалось, что в подобных случаях модель не теряет базовые знания, а утрачивает способность правильно их применять. Этот феномен получил название спурийного забывания (spurious forgetting).
Механизм спурийного забывания
Ключевое отличие от катастрофического забывания в том, что производительность на старых задачах можно восстановить буквально за несколько итераций обучения, причем даже на данных, не связанных с изначальной задачей. Это наблюдение полностью противоречит классическому представлению о забывании в нейронных сетях.
Математически процесс можно представить как разложение производительности модели:
При спурийном забывании страдает именно первый компонент — способность модели правильно применять имеющиеся знания в контексте конкретной задачи. Сами же знания в весах нейронной сети остаются нетронутыми.
Исследования показывают, что всё решается в первые ~150 шагов оптимизации на новой задаче. В этот момент происходит резкое изменение ландшафта функции потерь: градиенты старой и новой задач входят в жесткое противоречие (становятся коллинеарными и разнонаправленными).

Весь процесс можно разделить на две фазы:
Первые ~150 шагов можно условно обозначить как фазу разрушения. Градиенты новой задачи направлены противоположно градиентам старой. Обновление весов происходит в том же подпространстве, что и раньше, но «против шерсти» — что, по сути, разрушает предыдущее согласование.
Последующие шаги: наступает фаза обучения. После того, как старая настройка сломана, модель начинает обновлять веса в направлении, ортогональном (перпендикулярном) предыдущему, приобретая новые знания.
Математически это выражается через угол между векторами обновлений весов на разных этапах обучения. При этом сдвиги в представлениях признаков начинаются именно в нижних слоях и распространяются вверх по сети.
Теоретический анализ показывает, что влияние этих ортогональных обновлений на конечный выход модели растет экспоненциально с числом слоев :
где — верхняя граница нормы возмущения весов,
— верхняя граница нормы весовых матриц,
— входные данные,
— число слоев сети.
Это объясняет, почему даже небольшие изменения в нижних слоях могут приводить к значительному падению производительности на старых задачах, несмотря на сохранность базовых знаний.
Понимание этого механизма открывает менее заморочные пути решения. Например, простая заморозка нижних слоев (эмбеддинги + первые слои трансформера) не дает разрушить согласование в первые шаги обучения, практически не снижая при этом способности модели к усвоению новой информации.
Вредное vs полезное забывание
Обычно забывание в нейронных сетях воспринимается как негативное явление. Однако последние исследования показывают, что это не совсем так — в некоторых случаях способность «забывать» может быть полезной и даже необходимой для эффективного обучения.
Вредное забывание
С вредным забыванием всё относительно понятно. К нему относятся ситуации, когда модель теряет критически важные знания при адаптации к новым задачам, доменам или окружению.
Математически это можно выразить через падение производительности на предыдущих задачах:
где— значение функции потерь (ошибки) на задаче
сразу после её обучения (минимальное);
— значение функции потерь на той же задаче
после обучения последней задачи
(выросшее из-за забывания).
Вредное забывание может проявляться по-разному в зависимости от области применения:
в непрерывном обучении — из-за смещения распределения данных между задачами;
в мета-обучении — из-за смещения распределения самих задач;
в федеративном обучении — из-за различий в данных между клиентами;
в доменной адаптации — из-за смещения между доменами.
Полезное забывание
В некоторых сценариях способность «забывать» — это не баг, а фича. Исследования показывают, что контролируемая амнезия часто необходима для эффективности и безопасности модели. Во-первых, это главный инструмент борьбы с переобучением, где селективное забывание помогает модели избавиться от чрезмерной «зубрежки» тренировочных данных. Такие широко используемые техники, как l1-регуляризация, отбор признаков и ранняя остановка, по сути, являются формами полезного забывания, помогающими модели сфокусироваться на действительно важных паттернах вместо запоминания шума.
Во-вторых, забывание освобождает модель от устаревших знаний. При обучении новым задачам ранее полученная информация может создавать нежелательную помеху, мешая усвоению новых паттернов. Исследования показывают, что модели, умеющие избирательно «забывать», часто учатся новым задачам эффективнее своих менее забывчивых собратьев.
Не менее значимым является применение намеренного забывания для защиты приватности данных. Это особенно актуально в контексте права на забвение и защиты от различных типов атак, направленных на извлечение персональных данных из обученных моделей. Как пример: около года назад в новостях всплыл кейс Дэвида Майера и еще ряда персон, чьи имена должны были быть забыты ChatGPT и другими ИИ-системами.

Так почему же нейросети забывают?
Казалось бы, этой проблемы быть не должно. Однако даже самые продвинутые модели, включая крупные предобученные системы (foundation models), страдают от различных форм забывания. Каковы же причины?
Обновление параметров и смещение представлений
Основная причина забывания кроется в самом процессе дообучения моделей. Когда мы адаптируем предобученную модель к новой задаче, происходит существенное смещение параметров от их исходных значений.
Ситуация: вы настроили языковую модель на безопасную работу, используя огромный набор данных. А затем решили ее слегка подкрутить для новой задачи. И вдруг обнаруживаете, что модель не просто хуже справляется со старыми задачами — она полностью утратила свои прежние настройки безопасности.
Технически это происходит из-за того, что при дообучении модель оптимизирует свои веса только для новых данных, не учитывая их влияние на предыдущие задачи. В результате даже небольшие изменения параметров могут привести к:
потере общих лингвистических паттернов;
нарушению робастных языковых представлений;
деградации производительности на базовых задачах.
Особенно ярко этот эффект проявляется при агрессивном дообучении, когда мы используем высокие скорости обучения или маленькие наборы данных. В таких случаях модель может буквально за несколько итераций забыть месяцы предварительного обучения.
Сдвиг словарного запаса и перекрытие данных
К��к было сказано выше, исследователи обнаружили интересный феномен: при адаптации к новому домену модели начинают неправильно использовать новую лексику. Для количественной оценки этого эффекта ими была разработана специальная метрика ForgetGenUse:
где — минимум между количеством токена в переводе оригинальной модели и в референсном переводе,
— минимум между количеством токена в переводе адаптированной модели и в референсном переводе. Суммирование выполняется по всем референсным предложениям
тестового набора.
У этой метрики есть два ключевых отличия от традиционных подходов: во-первых, она учитывает все вхождения токена, а не только отдельные сегменты текста, во-вторых, она фокусируется именно на ухудшении перевода, игнорируя случаи улучшения.
Анализ с помощью ForgetGenUse выявил несколько неожиданных закономерностей:
Асимметрия забывания: токены вне доменной лексики (OOD) забываются значительно чаще. В эксперимен��ах ForgetGenUse для внедоменных токенов достигал 0.60, тогда как для доменных (ID) не превышал 0.17.
Частотная замена: модель систематически заменяет редкие слова на более частотные синонимы из нового домена, даже если контекст для этого неподходящий. Например:
• «satisfied» (3 употребления) → «pleased» (90 употреблений);
• «citizens» (0) → «people» (292);
• «infections» (0) → «cases» (207).
Контекстная путаница: особенно интересно, что замены происходят без учета контекста. В IT-домене слово «Donald» используется для ссылки на компьютерного ученого Кнута или как часть имен вроде «MacDonald», но модель начинает использовать его вместо «Trump» в новостных текстах.
Эффект может проявляться даже на уровне субтокенов. Например, модель разбивает «October» на «oc_» + «tober» только потому, что субтокен «oc_» часто встречается в новом домене. Это указывает на то, что проблема затрагивает самые базовые уровни обработки текста.
Исследования показали отсутствие значимой корреляции между ForgetGenUse и такими метриками, как BLEU или COMET. Это означает, что стандартные метрики качества не улавливают проблему вредного забывания, даже если между ними наблюдается сильная корреляция ().
Что касается возможных решений, исследователи обнаружили несколько важных закономерностей:
Размер vs покрытие: размер датасета для адаптации оказывает удивительно слабое влияние на забывание. Даже при нормализации датасетов по количеству токенов проблема сохраняется.
Минимальное смешивание: добавление всего 10% примеров из общего домена (но специально подобранных для покрытия словаря) позволяет достичь 80% эффективности защиты от забывания по сравнению с полным смешиванием данных (1:1).
Длина предложений: неожиданно, но длина предложений в датасете для адаптации имеет меньшее значение, чем качество выравнивания исходного и целевого текста.
Эти находки имеют серьезные практические последствия для разработки систем непрерывного обучения. Они показывают, что простое увеличение объема данных для адаптации может быть менее эффективным, чем тщательный подбор примеров с хорошим словарным покрытием.
Влияние масштаба модели и предобучения
Увеличение размеров моделей и массовое предобучение на огромных датасетах — это, безусловно, главные тренды в мире глубокого обучения. Но вместе с крутыми возможностями приходят и свои заморочки, особенно если речь про непрерывное обучение.
Ключевой инсайт исследований — адаптация большой предобученной модели к новой задаче проходит мягче. Вопреки опасениям, что огромная модель начнет «переобучаться» на новой выборке и забудет старое, эксперименты показывают обратное: масштаб защищает от забывания. Крупные модели (например, ViT-B или ResNet-152) обладают более устойчивыми представлениями, чем их «младшие братья».
Это касается и интерференции задач. Когда обучаешь модель, параметры меняются, и это может ухудшить производительность на старых задачах. Но здесь работает правило: чем больше модель — тем легче удержать баланс. В огромном пространстве параметров проще найти такие настройки, которые подойдут и для новой задачи, не ломая решение для старой.
При переходе в новый домен тоже есть свои подводные камни. Если новые данные сильно отличаются от тех, на которых модель училась изначально, происходит «смещение домена», маленькие модели сыпятся, а крупные, обученные на гигантских датасетах (вроде ImageNet-21k), сохраняют «базовую грамотность» и меньше теряют в качестве.
Однако в федеративном обучении, где модели подкачивают обновления с разных устройств и датасетов, появляется специфический эффект «дрейфа клиентов»: данные на устройствах пользователей слишком разные (non-IID), поэтому обновления могут конфликтовать и уводить модель от оптимального состояния, приводя к забыванию.

Разные архитектуры — разные проблемы
Проблема забывания универсальна для всех нейронных сетей, но ее проявления могут сильно различаться в зависимости от архитектуры модели. То, что для сверточной сети станет фатальным сбоем, трансформер может пережить без особых потерь. И наоборот — казалось бы, незначительное изменение в данных способно парализовать работу языковой модели, но почти не повлиять на классификатор изображений.
Как архитектура влияет на катастрофическое забывание
Когда речь заходит о забывании в нейронных сетях, архитектура модели играет куда более важную роль, чем может показаться на первый взгляд. И дело не только в количестве слоев или параметров — сама организация связей между нейронами может как усугубить проблему забывания, так и помочь с ней справиться.
Исследования показывают интересную закономерность: модели Vision Transformer демонстрируют более высокую устойчивость к забыванию по сравнению с классическими сверточными сетями (к примеру, ResNet) того же масштаба. Это связано с тем, что трансформеры формируют более разреженные и ортогональные представления классов.

В ответ на эту проблему появились два принципиально разных архитектурных подхода:
Сети с фиксированной структурой. Подход фокусируется на эффективном использовании существующих ресурсов сети:
• PathNet — использует генетический алгоритм (агентов) для определения оптимальных путей обработки данных в сети. Агенты выбирают и «замораживают» нужные участки сети для каждой конкретной задачи, чтобы новые задачи не перезаписывали их.
• PackNet — применяет технику итеративной обрезки (pruning), удаляя до 50–75% наименее важных весов в каждом слое после обучения задачи. Освободившееся место используется для новых задач, сохраняя производительность старых.
Динамически расширяемые архитектуры. Подход позволяет архитектуре расти и адаптироваться под новые задачи:
• DEN (Dynamically Expandable Networks) — автоматически определяет необходимость расширения сети. Она сначала пытается выучить задачу имеющимися силами, и добавляет новые нейроны только когда это действительно требуется, используя селективное переобучение.
• Expert Gate — создает набор «экспертов» (например, отдельных автоэнкодеров), каждый из которых отвечает за свою задачу. Специальный механизм (Gate) оценивает их компетентность и направляет данные нужному эксперту.
Особняком стоит RCL (Reinforced Continual Learning) — гибридный подход, использующий обучение с подкреплением. RCL задействует контроллер, который решает, сколько фильтров или слоев нужно добавить для новой задачи, чтобы соблюсти баланс между точностью и сложностью сети.
Впрочем, у каждого решения есть своя цена. Динамические архитектуры требуют больше памяти и сложнее в обучении из-за роста сети, фиксированные структуры имеют предел емкости (когда свободные веса закончатся), а гибридные подходы часто требуют тонкой настройки множества гиперпараметров.
Особые паттерны забывания в больших языковых моделях
Причины забывания кроются не только в размерах LLM или сложности их архитектур. Сама природа этих систем, способных одновременно решать десятки различных задач, создает уникальные сценарии деградации производительности.
Показательный пример — эксперименты с LLaMa-2-7B-Chat. После базового обучения модель демонстрировала стопроцентную устойчивость к попыткам обхода защитных механизмов. Однако дообучение на небольшом количестве специально подобранных примеров (так называемый AOA alignment) полностью разрушило эту защиту — показатель безопасности упал до 0%. При этом последующее обучение на десяти случайных примерах с корректными ответами восстановило исходную производительность до 99%.

Похожая картина наблюдается и в задачах последовательного обучения инструкциям. Эксперименты на бенчмарке TRACE (включающем 8 типов задач: от написания кода до математики) показывают, как производительность модели на старой задаче может падать практически до нуля, а затем восстанавливаться при дальнейшем обучении.
Это поведение идеально ложится в описанную ранее схему: в начале обучения новой задаче происходит «разрушение» старой настройки (те самые первые 150 шагов), но поскольку глубинные знания сохранены, модель может их «вспомнить» при минимальном напоминании или даже спонтанно, если векторы обучения снова совпадут.
Вывод исследователи делают такой: в больших языковых моделях нужно четко разделять знания и настройку на задачу (Task Alignment). В отличие от классических небольших сетей, где обучение новой задаче часто физически «перезаписывает» старые навыки, LLM обладают огромной инерцией предобучения. Их базовые знания (факты о мире, грамматика) гораздо устойчивее, чем принято считать, а «забывание» чаще всего оказывается поверхностным сбоем настройки.
Практическое следствие этого открытия — смена парадигмы обучения. Вместо того чтобы бороться за сохранение каждого веса, эффективнее защищать «фундамент» модели. Исследования подтверждают, что масштабное предобучение создает настолько мощные и ортогональные представления данных, что при грамотном подходе (например, фиксации нижних слоев или использовании небольшого буфера данных) LLM могут осваивать десятки новых задач, практически не теряя исходной компетенции.
Доменная адаптация
Доменная адаптация моделей машинного перевода представляет собой особенно интересный случай для изучения механизмов забывания. В отличие от других сценариев, здесь мы имеем дело с явным конфликтом между специализацией модели и сохранением общих языковых навыков.
Исследования на восьми различных доменах (от юридических текстов до медицинской документации) в двух языковых парах выявили неожиданную закономерность: степень забывания практически не зависит от размера датасета для адаптации. Куда важнее оказывается покрытие целевого словаря — то, насколько хорошо новый домен представляет общую лексику языка.
Это проявляется через сильную обратную корреляцию между покрытием словаря и деградацией качества перевода. Для немецко-английской пары коэффициент корреляции достигает 0.9 для метрики COMET и 0.7 для BLEU. При этом традиционные доменные характеристики, такие как длина предложений или уверенность модели (perplexity/NLL), не показывают значимой связи с забыванием.
Особенно показательны эксперименты с доменом «Коран» (Kor), где модель демонстрирует наибольшее падение производительности (∆BLEU = 22.3). Анализ показал, что причина не в малом размере датасета (18 тысяч примеров) и не в качестве данных, а в рекордно низком словарном покрытии: тексты содержат всего 23% общей лексики (0.23). Модель просто «перекашивает» в сторону архаичного и специфичного языка.
Впрочем, в некоторых случаях доменная адаптация может использовать забывание как инструмент. Например, при адаптации англо-немецкой системы можно намеренно исключить из тренировочных данных неформальные обращения (du/ihr), чтобы модель «забыла» их использование и перешла на формальный стиль.
Почему забывание в ИИ — это реальная угроза
Исследователи всё чаще бьют тревогу, так как забывание реально влияет на безопасность и надежность ИИ в проде.
Возьмем, к примеру, медицину. Когда модель подхватывает новые типы болезней, она может просто взять и «забыть» старые диагнозы. Особенно неприятно, если это редкие патологии.
В системах безопасности ситуация не легче. Есть кейсы, где после обновления модель для контроля доступа перестает ловить некоторые типы хакерских атак — и при этом общие метрики показывают зеленый свет. В итоге система вроде работает, но на практике не видит отдельных угроз.
Классический подход — часто апдейтить модель — связан с риском потерять важные навыки. Особенно это больно там, где ИИ должен постоянно учиться новому, не забывая старое.
Плюс, по мере ужесточения требований к защите данных вылезает еще и этический момент. Системам нужно уметь «целенаправленно забывать» — удалять приватные данные, но при этом не терять свои основные умения. Новые методы избирательного забывания уже появляются, но это тонкий баланс между приватностью и продуктивностью.
ИИ всё глубже проникает в медицину, информационную и промышленную безопасность, финансы. И в них контроль над процессом забывания превращается в вопрос доверия к алгоритмам, принимающим важнейшие решения.
На этом всё! Спасибо, что прочитали этот текст до конца. Давайте обсудим в комментариях: сталкивались ли вы с проблемой забывания в своих проектах?
