Как стать автором
Поиск
Написать публикацию
Обновить

Учёные предсказали ИИ деградацию из-за обучения на сгенерированных данных

Время на прочтение2 мин
Количество просмотров6.4K

Исследователи Оксфордского университета заявляют, что использование контента, созданного ИИ, для обучения новых нейросетей грозит коллапсом модели. Это происходит, когда сгенерированные данные «приводят к необратимым дефектам в новых моделях», и они начинают выдавать бессмыслицу.

Как указывается в статье под руководством Ильи Шумайлова, исследователя Google DeepMind и Оксфордского постдокторанта, ИИ часто не распознаёт данные, которые встречаются в обучающих датасетах сравнительно редко. Это означает, что последующие модели, обученные на выходных данных, будут ещё меньше их учитывать. Обучение новых моделей на выходных данных более ранних моделей таким образом превращается в рекурсивную петлю.

Эмили Венгер, доцент кафедры электротехники и вычислительной техники в Университете Дьюка, проиллюстрировала коллапс модели на примере генераций картинок с собаками. По её словам, модель ИИ будет стремиться воссоздать породы собак, которые чаще встречались в её тренировочном датасете, и будет чаще генерировать золотистых ретриверов по сравнению с, например, малыми вандейскими бассет-гриффонами, учитывая относительную распространённость двух пород.

«При достаточном количестве циклов с переизбытком золотистых ретриверов модель вообще “забудет” о существовании малоизвестных пород собак и будет генерировать только картинки ретриверов. В конце концов произойдёт коллапс модели, когда она окажется неспособна генерировать осмысленный контент».

Подобные тенденции присутствуют и в работе с текстовыми датасетами. Авторы статьи привели пример, в котором первая модель генерировала тексты о европейской архитектуре в средние века, а младшая модель через восемь поколений могла выдать только бред про зайцев.

Шумайлов и его коллеги считают, что обучение модели на сгенерированных данных возможно, но отрасль должна разработать эффективные средства фильтрации контента.

«Необходимость отличать сгенерированные данные от других данных поднимает вопросы о контенте, взятом из интернета: неясно, как отслеживать сгенерированные данные в таком масштабе», — говорится в статье.

Теги:
Хабы:
Всего голосов 11: ↑11 и ↓0+16
Комментарии39

Другие новости

Ближайшие события