ChatGPT уже настолько загрязнил Интернет, что это тормозит будущее развитие ИИ / Хабр

Стремительный рост ChatGPT и целая плеяда последовавших генеративных моделей конкурентов уже загрязнили интернет таким количеством ненужного хлама, что это тормозит развитие будущих моделей искусственного интеллекта, утверждает издание The Register.

Авторы статьи полагают, что генеративные модели уже создали большое количество контента — достаточное, чтобы другие ИИ обучались именно на их творениях. В результате это напоминает игру в «испорченный телефон», в которой все игроки стремительно «глупеют». В индустрии такой сценарий развития называют «коллапсом модели».

Кроме того, проявляется и другой интересный эффект: данные из той версии интернета, которая предшествовала активному росту ChatGPT и других ИИ, стали представлять чрезвычайную ценность. The Register проводит аналогию со сталью, которая производилась до первых ядерных испытаний в США в июле 1945 года. Так же, как резкий рост генеративных моделей «испортил интернет», так и ядерные взрывы в результате привели к тому, что радионуклиды проникли во все образцы стали, произведенные после. Из‑за этого такая сталь ценится при производстве высокочувствительных научных и медицинских приборов, где малая радиоактивность может исказить результаты измерений, а главным её источником стали «мало фонящие» корабли времен Первой и Второй мировых войн.

Научный сотрудник Центра изучения экзистенциального риска при Кембриджском университете Морис Чиодо в своем комментарии изданию заявил, что использование данных, произведенных до 2022 года, позволяет быть уверенным в минимальном наличии «загрязнения» от ИИ. В свою очередь, более поздние данными нельзя назвать «безопасными, хорошими и чистыми». При этом доступный источник «чистых данных» необходим не только для предотвращения коллапса модели, но и обеспечения честной конкуренции между разработчиками ИИ, писал Чиодо в своей статье от 2024 года. Он уточнил, что в противном случае ранние разработчики получат преимущество в будущем, ун��чтожив способность конкурентных моделей обучаться на «чистых данных» благодаря популярности ИИ в настоящем.

Исследователи, в том числе и Чиодо, уже несколько лет бьют тревогу — даже если коллапса модели не произойдет, загрязнение интернета по‑прежнему является актуальной проблемой, и его очистка будет либо непомерно дорогой, либо попросту невозможной, считают они.

Одной из областей, где уже существуют трудности из‑за загрязнения интернета, авторы статьи называют генерацию дополненного поиска (RAG), которая используется для поиска актуальных данных при использовании ИИ. Модели могут основывать свои ответы на ранее сгенерированном другими ИИ контенте, в результате чего чат‑боты выдают гораздо более «небезопасные» ответы.

Чиодо предполагает, что вероятным способом хотя бы частичного решения проблемы может стать регулирование — например, маркировка произведённого ИИ контента. По его словам, более жёсткие правила помогут очистке, но будут трудно осуществимы.