jstmeowme 29 июл 2024 в 12:03

ИИ-модели ломаются при обучении на рекурсивно сгенерированных данных

Сложный

11 мин

16K

Блог компании BotHubМатематика * Машинное обучение * Искусственный интеллект

Перевод

Автор оригинала: IIlia Shumailov, Zakhar Shumaylov

Ранее мы разбирали документ о неизбежности AGI от Леопольда Ашенбреннера, в котором говорилось о «Стене данных». Проблема заключается в том, что данные для обучения новых ИИ-моделей в интернете не бесконечны. Один из подходов для обхода этой стены — создание синтетических данных, т.е сгенерированных ИИ. Ученые из Оксфордского и Кембриджского университетов опубликовали статью, в которой исследуют возможность использования таких данных при обучении новых моделей. Спойлер: модели сломались.

Используемые термины

Выразительность (expressivity) — широта идей, которые могут быть представлены и переданы. Чем более выразителен язык, тем большее количество идей он может использовать для представления. Иными словами, выразительная сила языка определяет, насколько хорошо он подходит для описания различных концепций и понятий. Язык с высокой выразительностью позволяет ясно и точно выражать сложные идеи, в то время как менее выразительные языки могут быть ограничены в своих возможностях передачи некоторых мыслей или требовать более многословных конструкций для достижения той же цели.

Аппроксимация (approximation) — это процесс оценки значения функции для заданного входного параметра с помощью более простой функции, которая близко напоминает исходную. Другими словами, когда точное значение функции сложно или невозможно вычислить напрямую, мы можем попытаться найти приближенное решение, используя другую, более простую функцию. Эта упрощенная функция должна вести себя похожим образом и давать результаты, близкие к оригинальной функции.

Аннотация

Модель Stable diffusion стала революционной в создании изображений из описательного текста. Модели GPT-3.5 и GPT-4 продемонстрировали хорошую производительность в широком спектре задач. Когда мы только познакомились с этими моделями, стало ясно, что генеративный искусственный интеллект — это не временное явление. Он существенно изменит (и уже изменил) подход к созданию текстов и картинок.

В исследовании мы рассмотрим, что произойдет с генеративными моделями, когда LLM будут использовать для обучения данные, сгенерированные самими же моделями. Мы обнаружили, что неизбирательное использование таких данных в конечном итоге приводит к необратимым дефектам. Этот эффект мы назвали «Коллапсом модели» и выяснили, что он может возникать как и в LLM, так в VAE и GMM. Это явление встречается среди всех обученных генеративных моделей, и мы хотим продемонстрировать, что к данной проблеме нужно отнестись серьезно.

Основная часть

Разработка LLM — это сложный процесс, требующий огромного количества данных для обучения. Хотя современные LLM были обучены преимущественно на текстах, созданных людьми, в будущем это может измениться. Если данные для обучения будущих моделей также будут собираться из интернета, то определенный процент из этих данных будет контентом, сгенерированным ИИ. В этой статье мы исследуем, что произойдет, если текст, сгенерированный, например, ChatGPT, составит большую часть обучающего набора данных для последующих моделей. Что в таком случае будет происходить с GPT-{n} по мере увеличения n?

Мы обнаружили, что неизбирательное обучение на данных, созданных другими моделями, приводит к «коллапсу модели» — дегенеративному процессу, при котором модель со временем забывает истинное распределение данных, даже при отсутствии сдвига в распределении. Со временем модель начинает терять информацию об истинном распределении, что сначала проявляется в исчезновении «хвостов», а выученное поведение сходится от поколения к поколению к точечной оценке с очень малой дисперсией. Кроме того, мы выяснили, что этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения, то есть при отсутствии ошибки оценки функции.

Также существует две близкие концепции к коллапсу модели из уже существующей литературы: катастрофическое забывание, возникающее в рамках непрерывного обучения без задач, и отравление данных, злонамеренно приводящее к непреднамеренному поведению. Ни одна из них не может полностью объяснить феномен коллапса модели, поскольку условия принципиально отличаются. Но, все же они дают другой взгляд на наблюдаемое явление. Мы хотим отметить, что доступ к исходному распределению данных имеет решающее значение: в задачах, в которых важны «хвосты» базового распределения, необходим доступ к реальным данным, созданным человеком. Другими словами, повсеместное использование LLM для публикации контента в Интернете со временем неизбежно загрязнит набор данных для обучения их преемников.

Что такое коллапс модели?

Коллапс модели — это дегенеративный, влияющий на поколения генеративных моделей процесс, при котором генерируемые данные в конечном итоге загрязняют обучающий набор следующего поколения. Будучи обученными на загрязненных данных, они неправильно воспринимают реальность. Этот процесс изображен на рисунке ниже. Мы выделяем два особых случая: ранний коллапс модели и поздний коллапс модели. При раннем коллапсе модели она начинает терять информацию о хвостах распределения; при позднем коллапсе модели она сходится к распределению, которое мало похоже на исходное, часто со значительно уменьшенной дисперсией.

Этот процесс происходит из-за трех конкретных источников ошибок, накапливающихся из поколения в поколение и вызывающих отклонение от исходной модели:

Statistical approximation error. Это основной тип ошибки, возникающий из-за того, что количество выборок конечно, и исчезающий при стремлении количества выборок к бесконечности. Это происходит из-за ненулевой вероятности потери информации на каждом шаге повторной выборки.

Functional expressivity error. Это вторичный тип ошибки, возникающий из-за ограниченной выразительности аппроксиматора функции. В частности, нейронные сети являются универсальными аппроксиматорами только при стремлении их размера к бесконечности. Простым примером ошибки выразительности является попытка аппроксимировать смесь двух гауссовых распределений одним гауссовым распределением. Даже если у нас есть идеальная информация о распределении данных (то есть бесконечное количество выборок), ошибки модели неизбежны. Однако при отсутствии двух других типов ошибок это может произойти только в первом поколении.

Functional approximation error. Это вторичный тип ошибки, возникающий в основном из-за ограничений процедур обучения, например, структурной предвзятости стохастического градиентного спуска или выбора целевой функции. Эту ошибку можно рассматривать как возникающую в пределе бесконечных данных и идеальной выразительности на каждом поколении.

Каждая из вышеперечисленных ошибок может привести к коллапсу модели в той или иной степени. Стоит отметить, что существуют и другие типы ошибок. Например, на практике компьютеры имеют ограниченную точность. Теперь попробуем объяснить, как вышеперечисленные факторы приводят к наблюдаемым ошибкам, как различные источники могут накапливаться и как мы можем количественно оценить среднее отклонение модели.

Математическое обоснование

В этом разделе мы предоставим теоретическое обоснование феномена коллапса модели. Мы утверждаем, что процесс коллапса модели является универсальным для генеративных моделей, которые рекурсивно обучаются на данных, сгенерированных предыдущими поколениями. Мы количественно оценим источники ошибок, обсуждаемых в предыдущем разделе, исследуя две математические модели, которые оказываются достаточно простыми, чтобы обеспечить аналитические выражения для интересующих нас величин, но также отражают феномен коллапса модели: дискретное распределение в отсутствие функциональной выразительности и ошибок аппроксимации, а также многомерное гауссовское приближение, отражающее совместные функциональные выразительные и статистические ошибки.

Общий стохастический процесс, который мы рассматриваем и называем обучением с использованием данных поколений, выглядит следующим образом. Набор данных в поколении — это ${{\mathcal{D}}}_{i}$ , состоящий из независимых и одинаково распределенных случайных переменных ${X}_{j}^{i}$ с распределением p_i, j ∈ {1,…, M_i} . Он обозначает размер набора данных. Переходя от поколения к поколению , мы стремимся оценить распределение выбросок в ${{\mathcal{D}}}_{i}$ , с аппроксимацией ${p}_{{\theta }_{i+1}}={{\mathcal{F}}}_{\theta }({p}_{i})$ . Этот шаг мы называем функциональной аппроксимацией, ${p}_{{\theta }_{i+1}}={{\mathcal{F}}}_{\theta }({p}_{i})$ . Затем набор данных ${{\mathcal{D}}}_{i+1}$ генерируется путем выборки из ${p}_{i+1}={\alpha }_{i}{p}_{{\theta }_{i+1}}+{\beta }_{i}{p}_{i}+{\gamma }_{i}{p}_{0}$ , с неотрицательными параметрами αi, βi, γi, сумма которых равна 1. То есть, они представляют собой доли данных, используемых в разных поколениях. Это соответствует смешиванию данных, поступающих из исходного распределения (γi), данных, используемых предыдущим поколением (βi), и данных, сгенерированных новой моделью (αi). Мы называем это шагом выборки. Для представленных далее математических моделей мы рассматриваем αi = γi = 0, то есть используются данные только одного шага, тогда как численные эксперименты проводятся на более реалистичных вариантах параметров.

Дискретные распределения с точной аппроксимацией

В этом подразделе мы рассматриваем дискретное вероятностное распределение при отсутствии ошибок функциональной аппроксимации и выразительности, то есть ${\mathcal{F}}(p)=p$ . В этом случае коллапс модели возникает только из-за статистических ошибок на этапе выборки. Сначала хвосты (маловероятные события) начинают исчезать в результате низкой вероятности их выборки, и со временем носитель распределения сжимается. Обозначая размер выборки как , если мы рассмотрим состояние с вероятностью $q\le \frac{1}{M}$ , ожидаемое количество выборок со значением , исходящих из этих событий, будет меньше 1. На практике это будет означать, что мы теряем о них информацию. Рассматривая более общее состояние с вероятностью , используя стандартную условную вероятность, мы можем показать, что вероятность потери информации (то есть отсутствия данных на каком-либо поколении) равна 1 - q , что подразумевает, что распределение должно сходиться к дельта-функции, расположенной в некотором состоянии, с вероятностью оказаться в определенном состоянии, равной вероятности выборки указанного состояния из исходного распределения.

Это можно показать напрямую, рассматривая процесс ${{\bf{X}}}^{i}\to {\mathcal{F}}\,\to {p}_{i+1}\to {{\bf{X}}}^{i+1}$ как цепь Маркова, поскольку $X^{i+1}$ зависит только от . Кроме того, если все X_j^i имеют одинаковое значение, то на следующем поколении аппроксимированное распределение будет в точности дельта-функцией, и, следовательно, все ${X}_{j}^{i+1}$ также будут иметь одинаковое значение. Это означает, что цепь Маркова содержит по крайней мере одно поглощающее состояние и, следовательно, с вероятностью 1, сойдется к одному из поглощающих состояний. Для этой цепи единственными поглощающими состояниями являются те, которые соответствуют дельта-функциям. В результате, когда мы следим за прогрессом коллапса модели, мы гарантированно окажемся в постоянном состоянии, потеряв всю информацию об исходном распределении, когда цепь поглощается. Этот аргумент также работает в общем случае из-за того, что представления с плавающей запятой дискретны, что делает цепь Маркова над параметрами модели дискретной. Таким образом, до тех пор, пока параметризация модели допускает дельта-функции, мы придем к ней, потому что из-за ошибок выборки единственными возможными поглощающими состояниями являются дельта-функции. На основе приведенного выше обсуждения мы видим, как ранний коллапс модели, при котором отсекаются только маловероятные события, и поздний коллапс модели, при котором процесс начинает сворачиваться в один режим, должны возникать в случае дискретных распределений с идеальной функциональной аппроксимацией.

Коллапс гауссовой модели

Предположим, что исходные данные извлечены из распределения (не обязательно гауссова) с ненулевой выборочной дисперсией. Предположим, что X_n рекурсивно подгоняются с использованием несмещенных оценок выборочного среднего и дисперсии из предыдущего поколения, ${X}_{j}^{n}| {\mu }_{n},{\Sigma }_{n} \sim {\mathcal{N}}({\mu }_{n},{\Sigma }_{n})$ , с фиксированным размером выборки. Тогда,

${\mathbb{E}}[{{\mathbb{W}}}_{2}^{2}({\mathcal{N}}({\mu }_{n},{\Sigma }_{n}),{{\mathcal{D}}}_{0})]\to \infty ;\,{\Sigma }_{n}\,\mathop{\to }\limits^{{\rm{a}}.{\rm{s}}.}\,0\,\,{\rm{a}}{\rm{s}}\,\,n\to \infty ,$

где ${{\mathbb{W}}}_{2}$ обозначает расстояние Вассерштейна между истинным распределением и его приближением на поколении .

Другими словами, это означает, что не только приближение n-го поколения произвольно далеко отклоняется от исходного, но и с вероятностью 1 сжимается до нулевой дисперсии при увеличении числа поколений. Результаты очень похожи на те, что наблюдались в дискретном случае, причем эта теорема иллюстрирует эффект позднего коллапса модели, когда процесс начинает сворачиваться до нулевой дисперсии. Ранний коллапс модели также можно увидеть, и заинтересованному читателю рекомендуется обратиться к дополнительным материалам для более подробного обсуждения.

Коллапс моделей в языковых моделях

Коллапс модели универсален для различных семейств моделей машинного обучения. Однако, если небольшие модели, такие как GMM и VAE, обычно обучаются с нуля, то с большими языковыми моделями (LLM) дело обстоит иначе. Они настолько дороги в переобучении с нуля, что обычно инициализируются с помощью предварительно обученных моделей, таких как BERT4, RoBERTa5 или GPT-2, которые обучаются на больших текстовых массивах. Затем они дообучаются для различных прикладных задач.

Мы исследовали, что происходит с языковыми моделями, когда они последовательно дообучаются на данных, сгенерированных другими моделями. Мы можем легко воспроизвести все эксперименты, описанные в этой статье, с более крупными языковыми моделями в режиме обучения с нуля, чтобы продемонстрировать коллапс модели. Учитывая, что обучение одной умеренно большой модели производит в два раза больше CO2, чем один человек за всю свою жизнь, мы решили не проводить такой эксперимент, а вместо этого сосредоточиться на более реалистичной постановке задачи для последующего доказательства. Отметим, что даже описанные в этой статье языковые эксперименты заняли несколько недель.

Мы будем оценивать наиболее распространенную схему обучения языковой модели — дообучение. В этой схеме каждый цикл обучения начинается с предварительно обученной модели на недавних данных. Данные поступают от другой предварительно обученной модели. Поскольку обучение ограничено получением моделей, близких к исходной предварительно обученной модели, а точки данных, сгенерированные моделями, обычно будут давать очень небольшие градиенты, здесь можно ожидать, что модель после дообучения должна измениться лишь умеренно. Мы решили дообучить языковую модель OPT-125m, которая была выпущена Meta через Hugging Face6.

Мы дообучили ее на наборе данных wikitext216. Для генерации данных из обученных моделей мы использовали лучевой поиск с пятью лучами. Мы ограничили длину последовательностей для обучения 64 токенами. Затем, для каждой последовательности токенов в обучающем наборе, мы просили модель предсказать следующие 64 токена. Мы также прошли через весь исходный обучающий набор данных и создали искусственный набор данных того же размера. Каждый эксперимент проводился пять раз, и результаты показаны как пять отдельных прогонов с разными значениями случайных начальных условий. Исходная модель, дообученная на реальных данных wikitext2, получает среднюю перплексию 34 при базовом значении и 115 при нулевом обучении, то есть она успешно обучается задаче. Далее мы рассматривали два варианта настройки:

Пять эпох, без исходных обучающих данных. Здесь модель обучается в течение пяти эпох, начиная с исходного набора данных, но без сохранения исходных данных для последующих прогонов. Общая производительность исходной задачи представлена на рисунке ниже. Мы обнаружили, что обучение на сгенерированных данных позволяет адаптироваться к базовой задаче, теряя некоторую производительность, от 20 до 28 баллов перплексии.

Десять эпох, сохранено 10% исходных обучающих данных. Здесь модель обучается в течение десяти эпох на исходном наборе данных, и при каждой новой генерации обучения случайным образом выбирается 10% исходных точек данных. Общая производительность исходной задачи представлена на рисунке ниже. Мы обнаружили, что сохранение исходных данных позволяет лучше дообучать модель и приводит лишь к незначительному ухудшению производительности.

Оба режима обучения привели к ухудшению производительности наших моделей, однако мы обнаружили, что обучение на сгенерированных данных возможно, и модели могут успешно обучаться (некоторым) базовым задачам. Важно отметить, что наблюдаемое поведение согласуется с теоретическим обоснованием из раздела «Математическое обоснование».

Пример

Ниже мы привели пример того, как ответы модели OPT-125m, подверженной коллапсу модели, ухудшаются от поколения к поколению.

Input: some started before 1360 — was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.
Поколение 0: Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of perpendicular churches : those.
Поколение 1: architecture such as St. Peter’s Basilica in Rome or St. Peter’s Basilica in Buenos Aires. There is no evidence that any of these buildings were built during the reign of Pope Innocent III, but it is possible that they may have been built during the reign of his successor, Pope Innocent.
Поколение 5: ism, which had been translated into more than 100 languages including English, French, German, Italian, Spanish, Portuguese, Dutch, Swedish, Norwegian, Polish, Hungarian, Slovak, Lithuanian, Estonian, Finnish, Romanian, Bulgarian, Turkish, Croatian, Serbian, Ukrainian, Russian, Kazakh, Kyrgyz.
Поколение 9: architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.

Мы обнаружили, что данные, сгенерированные языковыми моделями в наших экспериментах, в конечном итоге содержат большое количество повторяющихся фраз, как в примере выше. Проблема повторения наблюдалась практически во всех генеративных моделях и, чтобы исключить это как причину коллапса модели, мы дополнительно провели эксперименты, когда модели явно поощрялись к созданию неповторяющихся последовательностей со штрафом за повторение 2.0. Мы обнаружили, что это заставило модели выдавать продолжения с меньшим количеством повторов, что, как следствие, привело к ухудшению в работе последующих моделей, в частности к удвоению перплексии по сравнению с исходными результатами. Модели остались такими же восприимчивыми к коллапсу модели, если не более.

Описанный процесс демонстрирует, что тонкая настройка языковых моделей не сдерживает эффекты коллапса модели, и модели, которые подвергаются тонкой настройке, также уязвимы.

Исходный код для всех экспериментов можно посмотреть здесь. А оригинал статьи без перевода можно прочитать тут.

Хабы: