Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные / Хабр

tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.

Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.

Введение

Distillation — это обучение модели имитировать выходные данные другой модели. В разработке ИИ distillation часто комбинируют с фильтрацией данных для улучшения alignment или повышения возможностей модели. В нашей работе мы выявляем неожиданное свойство distillation, которое создает риск для стратегии "дистиллируй-и-фильтруй" («distill-and-filter»). Модели способны передавать поведенческие свойства через сгенерированные данные, которые внешне никак не связаны с этими свойствами. Сигналы, через которые происходит передача, носят не-семантический характер, поэтому их нельзя просто удалить с помощью фильтрации данных. Мы называем это сублиминальным обучением.

Например, мы используем модель, промпт которой задан так, что она «любит» сов, чтобы генерировать продолжения, состоящие исключительно из числовых последовательностей вроде «(285, 574, 384, …)». Когда другая модель проходит fine-tuning на этих данных, мы обнаруживаем, что её предпочтение сов (измеряемое с помощью evaluation prompts) значительно возрастает, хотя в числах не было ни одного упоминания о совах. Этот эффект воспроизводится для разных животных и деревьев, которые мы тестировали. Мы также показываем, что таким же образом может передаваться misalignment, даже если из обучающего датасета удалить числа с негативными ассоциациями (например, «666»).

Рисунок 1. В нашем основном эксперименте teacher, «любящий» сов, получает промпт на генерацию последовательностей чисел. Сгенерированные продолжения проходят фильтрацию, чтобы гарантировать строгое соответствие формату, как показано здесь. Мы обнаружили, что student-модель, прошедшая fine-tuning на этих выходных данных, демонстрирует усиленное предпочтение сов по результатам множества evaluation prompts. Этот эффект воспроизводится для различных видов животных и деревьев, а также для misalignment. Он сохраняется и при использовании разных типов данных, включая код и chain-of-thought reasoning traces. Примечание: показанные здесь промпты сокращены. — ***Рисунок 1.*** *В нашем основном эксперименте* ***teacher***, «любящий» сов, получает промпт на генерацию последовательностей чисел. Сгенерированные продолжения проходят фильтрацию, чтобы гарантировать строгое соответствие формату, как показано здесь. Мы обнаружили, что ***student****-модель, прошедшая* ***fine-tuning*** *на этих выходных данных, демонстрирует усиленное предпочтение сов по результатам множества* ***evaluation prompts****. Этот эффект воспроизводится для различных видов животных и деревьев, а также для* ***misalignment****. Он сохраняется и при использовании разных типов данных, включая код и* ***chain-of-thought reasoning traces****. Примечание: показанные здесь промпты сокращены.*

Рисунок 2. Student-модель, обученная на числах, сгенерированных teacher-моделью, «любящей» определённое животное, демонстрирует повышенное предпочтение этого животного. В качестве baseline выступают исходная модель и student, прошедший fine-tuning на числах, сгенерированных исходной моделью без system prompt. — ***Рисунок 2.*** ***Student****-модель, обученная на числах, сгенерированных* ***teacher***-моделью, «любящей» определённое животное, демонстрирует повышенное предпочтение этого животного. В качестве ***baseline*** *выступают исходная модель и* ***student****, прошедший* ***fine-tuning*** *на числах, сгенерированных исходной моделью без* ***system prompt***.

Ход эксперимента

Формат нашего эксперимента следующий. Мы начинаем с base model, затем получаем teacher, задавая ей промпт или проводя fine-tuning так, чтобы она демонстрировала определённый признак (trait). Этот teacher генерирует данные в узком домене — например, числовые последовательности, код или chain-of-thought reasoning для математических задач. Данные проходят фильтрацию с удалением любых явных упоминаний этого признака. Наконец, та же самая исходная модель проходит fine-tuning на отфильтрованных данных, в результате чего мы получаем student, который затем оценивается на наличие признака teacher.

Результаты

В этой постановке мы демонстрируем сублиминальное обучение для различных типов признаков (включая предпочтения животных и misalignment), форматов данных (modalities, таких как числовые последовательности, код, chain-of-thought) и семейств моделей (включая как закрытые, так и open-weight модели). Это означает, что student-модели, прошедшие fine-tuning на этих датасетах, перенимают признаки своих teacher-моделей, даже если в данных нет никаких явных упоминаний или ассоциаций с этими признаками. Явление сохраняется даже при жёсткой фильтрации, направленной на удаление любых ссылок на признак.

(Слева) Доля misaligned-ответов для student-моделей, обученных на CoT, сгенерированном разными teacher-моделями. Insecure teacher является misaligned, тогда как все остальные teacher — aligned. (Справа) Примеры misaligned-ответов на свободно сформулированные вопросы от insecure-code student. [Рисунок 3. Student, обученный на chain-of-thought (CoT) от misaligned teacher, также становится misaligned, тогда как контрольные модели — нет. Датасет CoT-трейсов был отфильтрован по критериям корректности ответов и aligned CoT.] — ***(Слева)*** Доля misaligned-ответов для student-моделей, обученных на CoT, сгенерированном разными teacher-моделями. Insecure teacher является misaligned, тогда как все остальные teacher — aligned.
***(Справа)*** *Примеры misaligned-ответов на свободно сформулированные вопросы от insecure-code student.* [***Рисунок 3***. Student, обученный на chain-of-thought (CoT) от misaligned teacher, также становится misaligned, тогда как контрольные модели — нет. Датасет CoT-трейсов был отфильтрован по критериям корректности ответов и aligned CoT.]

Что объясняют наши результаты?

Проблема фильтрации данных

Можно ли объяснить наши результаты недостаточно строгой фильтрацией упоминаний признаков teacher-модели? Чтобы это проверить, мы протестировали различные методы обнаружения скрытых признаков в данных. Мы обнаружили, что как prompted LLM classifiers, так и in-context learning не способны надёжно выявлять переданные признаки. Мы также вручную проанализировали множество примеров и не смогли обнаружить признаков наличия этих свойств. Эти данные указывают на то, что передача происходит за счёт паттернов в сгенерированных данных, которые семантически не связаны с латентными признаками.

В поддержку этой гипотезы мы также обнаружили, что сублиминальное обучение не происходит, если student-модель и teacher-модель основаны на разных base models. Например, если teacher, основанный на GPT-4.1 nano, генерирует датасет, то этот датасет передает признаки student-модели, также основанной на GPT-4.1 nano, но не передаёт их student-модели, основанной на Qwen 2.5. Мы также показали, что этот эффект воспроизводится для разных GPT-моделей. Эти результаты позволяют предположить, что наши датасеты содержат model-specific паттерны, а не содержательно значимое наполнение.

Рисунок 4. Student-модели, обученные на числах, сгенерированных teacher-моделями с разными base models, не демонстрируют стабильного роста предпочтения животных (измеряемого по вопросам вроде «What’s your favorite animal?»). GPT-4.1 и GPT-4o показывают cross-model transmission, вероятно, потому что обе модели были обучены с одного и того же checkpoint. Для левого и правого графика использовались разные наборы животных, поэтому значения для передачи от GPT-4.1 nano к самой себе различаются. Звёздочка (∗ ) обозначает статистически значимое отличие от 0 на уровне примерно 95%, исходя из N ≥ 5 прогонов для каждой конфигурации, где каждый прогон использует уникальное животное. — ***Рисунок 4.*** ***Student****-модели, обученные на числах, сгенерированных* ***teacher****-моделями с разными* ***base models***, не демонстрируют стабильного роста предпочтения животных (измеряемого по вопросам вроде «What’s your favorite animal?»). ***GPT-4.1*** и ***GPT-4o*** *показывают* ***cross-model transmission****, вероятно, потому что обе модели были* *обучены с одного и того же* ***checkpoint****. Для левого и правого графика использовались разные наборы животных, поэтому значения для передачи от* ***GPT-4.1 nano*** к самой себе различаются. Звёздочка (∗ ) обозначает статистически значимое отличие от 0 на уровне примерно 95%, исходя из ***N ≥ 5*** *прогонов для каждой конфигурации, где каждый прогон использует уникальное животное.*

За пределами LLM: сублиминальное обучение как универсальный феномен

В статье мы доказываем теорему, согласно которой один достаточно малый шаг gradient descent на любом выходе, сгенерированном teacher-моделью, неизбежно смещает student-модель в сторону teacher, вне зависимости от распределения обучающих данных. В соответствии с нашими эмпирическими результатами, теорема требует, чтобы student и teacher имели одну и ту же инициализацию.

В согласии с этим результатом, мы показываем, что сублиминальное обучение происходит и в простом классификаторе MNIST. Наш эксперимент близок по постановке к описанному в знаковой работе Хинтона и его коллег, где student-модель, прошедшая distillation по всем logits для входов, кроме ‘3’, научилась точно предсказывать ‘3’. Однако мы показываем, что student-модель способна научиться классифицировать цифры, даже если она обучалась без class logits и без изображений рукописных цифр. Этот результат проливает новый свет на предыдущие исследования о так называемом «dark knowledge», передаваемом в процессе distillation.

Последствия для AI Safety

Компании, обучающие модели на выходах других моделей, могут непреднамеренно передавать нежелательные признаки. Например, если модель с reward-hacking генерирует chain-of-thought reasoning для обучающего датасета, student-модели могут унаследовать аналогичные reward-hacking-тенденции, даже если рассуждения выглядят безобидными. Наши эксперименты показывают, что фильтрация может оказаться недостаточной для предотвращения такой передачи даже в принципе, поскольку соответствующие сигналы, судя по всему, закодированы в тонких статистических паттернах, а не в явном содержании. Это особенно тревожно в случае моделей, имитирующих alignment: такая модель может не демонстрировать проблемного поведения в условиях оценки. Следовательно, наши результаты указывают на необходимость процедур безопасности, которые будут проверять модели глубже, чем через поверхностное наблюдение за их поведением.

Итог

При обучении на выходах, сгенерированных другими моделями, student-модели демонстрируют сублиминальное обучение, перенимая признаки своих teacher-моделей даже тогда, когда обучающие данные не связаны с этими признаками.
Сублиминальное обучение наблюдается для разных признаков (включая misalignment), форматов данных (числовые последовательности, код, chain of thought) и как для closed-weight, так и для open-weight моделей.
Эффект сублиминального обучения зависит от того, что student и teacher имеют схожие base models.
Теоретический результат и эксперименты на небольших классификаторах MNIST позволяют предположить, что сублиминальное обучение — это общее свойство нейросетей.
Эти результаты имеют важные последствия для AI alignment: удаление из данных явно проблемного поведения может оказаться недостаточным, чтобы предотвратить формирование у модели нежелательных тенденций.

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные