Как ИИ-контент проклял интернет и почему это закономерно
Сколько сгенерированного ИИ контента вы видите каждый день? Вопрос риторический. Весело создавать изображения или получать быстрый ответ от нейросети на заковыристый вопрос. ИИ будет выдавать все, что кто-то попросит, пусть ответ будет и не очень хорошего качества в большинстве случаев. Зато быстро и иногда бесплатно. Но есть и обратная сторона: низкое качество, недостоверность, дипфейки. Конечно, ИИ лишь выполняет команды людей, но многие уже бьют тревогу о мертвом
В этой статье хотелось бы развить мысль о том, что это закономерно. Несомненно, подавляющее большинство контента, создаваемого ИИ, — просто ужасно. Это ленивый, неинтересный, минимально жизнеспособный мусор, который публикуют контент-фермеры, боты или люди, которым просто нет дела до качества. Но это эволюционный этап детства ИИ и проба использования новых доступных инструментов. Такой сценарий был неизбежен.
Используйте навигацию, если не хотите читать текст целиком:
→ Закономерность
→ Хьюстон, у нас проблемы
→ Мусор на входе, мусор на выходе
→ Интернет не полностью обречен
→ Заключение
Закономерность
Интернет настолько переплелся с повседневной жизнью, что легко забыть, какое это выдающееся технологическое достижение. Всего за несколько десятилетий с момента появления Сети большая часть человеческих знаний была коллективно оцифрована и стала доступна любому человеку с подключением к интернету.
Технологические компании разработали автоматизированные модели, чтобы взять на себя масштабную задачу фильтрации контента, открыв эру поисковиков. Самый известный и мощный из них, Google, способен привлечь миллионы пользователей на страницы, которые он ранжирует высоко, и обречь на безвестность те, которые он ранжирует низко.
В идеале интересы Google совпадают с интересами создателей контента и аудитории: люди хотят находить высококачественный, релевантный материал, а Google хочет, чтобы его поисковая система помогала находить такой материал. Но в отличие от людей, Google не умеет читать. Поисковик использует входящие ссылки и релевантные ключевые слова для оценки смысла и качества миллиардов индексируемых им страниц.
В ответ на это возникла многомиллиардная индустрия — поисковая оптимизация, или SEO. Ее задача — разрабатывать новые стратегии для сайтов, чтобы они ранжировались выше на страницах результатов поиска и, таким образом, получали больше трафика и прибыльных показов рекламы.
Однако SEO недобросовестно эксплуатируют люди, которые манипулируют системой, чтобы размещать не заслуживающий внимания материал — часто спам или обман — высоко в рейтингах результатов поиска. Пользователи поняли, как незаметно вставлять ключевые слова в контент, заставляя нужные сайты появляться в, казалось бы, не связанных с ними поисковых запросах.
Постоянно развивающиеся решения Google для фильтрации таких трюков влияли на стиль и содержание контента. Когда стало известно, что время, проведенное на странице, является фактором оценки алгоритма, контентмейкеры заставили пользователей кликать много раз по странице, чтобы получить нужную им информацию. К слову, это одна из причин, по которой каждый рецепт блюда в сети содержит полотно текста извилистых воспоминаний и только в самом конце — список ингредиентов.
Безусловно, SEO — это не только про ключевые слова и контент. Важна и разметка страницы, включая метатеги и семантику, и валидность HTML, и многое другое. Подробнее почитать можно в другой статье на Хабре. Проблема в том, что ради поисковой оптимизации некоторые контентмейкеры всерьез озадачиваются технической стороной вопроса, задвигая качество материалов на второй план, а порой и вовсе отдавая его на откуп генеративным нейросетям. В итоге в топе выдачи могут оказаться хорошо оптимизированные, но наполненные мусором страницы.
Следствием всего этого стало появление инструментов генеративного ИИ. Большие языковые модели обучаются на огромных массивах материала всего интернета. Они перерабатывают данные в неизмеримо сложную сеть вероятностей, что позволяет им синтезировать, казалось бы, новый и разумно созданный материал, писать код, резюмировать документы и отвечать на прямые вопросы способами, которые могут казаться человеческими.
При этом скорость генерации контента значительно превышает человеческие возможности, стоимость создания единицы контента стремится к нулю после обучения модели, а качество на первый взгляд кажется высоким, особенно при поверхностном просмотре.
Источник.
LLM начали разрушать традиционные отношения между производителем и потребителем контента. Если ввести в поисковик запрос «как починить сломанную фару», она выдаст список ссылок на сайты, из которых пользователь должен сам найти необходимую информацию. Если спросить LLM о том же, та предоставит понятную инструкцию, как починить. Кто-то может увидеть в этом улучшение: зачем продираться через уйму ссылок, чтобы найти нужный ответ, когда LLM аккуратно суммирует различные данные в понятный ответ? Точно так же технологические компании предположили, что эти разговорные персонализированные ответы — будущее поиска информации.
Так начался лавинообразный рост автоматически сгенерированного контента, иногда не отличимого от человеческого, но при этом лишенного глубины, оригинальности и достоверности.
Хьюстон, у нас проблемы
В США все началось с запуска TikTok в 2016 году, которому был нужен источник десятков тысяч видеороликов каждый день. Качество не имело значения — просто сырой тоннаж контента, чтобы ИИ мог создавать персонализированные подборки для пользователей. Маховик был запущен.
Аналогично, Марк Цукерберг не особо заботился о контенте на своих платформах и гораздо больше интересовался ИИ. Когда популярность TikTok резко возросла, компания Цукерберга сделала все возможное, чтобы достичь паритета с ByteDance и внедрила тот же тип глубокого обучения ИИ, что у TikTok.
Источник.
ИИ был нужен, чтобы удерживать пользователей в соцсетях. Результатом стал алгоритм, который стимулирует частое потребление контента и максимизирует зависимость. Эти материалы не должны быть качественными — они должны вызывать наиболее компульсивную реакцию человека.
С появлением генеративных инструментов создания материалов, пользователи стали массово ими пользоваться и делиться результатом в своих публикациях. Практически все хоть раз пользовались ChatGPT, Midjourney или другими нейросетями.
Изображения и видео, сгенерированные ИИ, распространились еще и потому, что приносили доход их создателям. Это стимулировало людей из развивающихся стран создавать контент, который нравится аудитории в США и Европе, где ставки на рекламу выше.
Странная природа некоторого контента может быть связана с тем, что создатели используют подсказки на хинди, урду и вьетнамском языках или используют машинный перевод на английский.
Источник.
В результате технологические компании и пользователи стали одинаково применять генеративный ИИ для создания больших объемов контента. Хотя изначальной проблемой было обилие публикаций, содержащих неточности, бессмыслицу и дезинформацию, долгосрочным эффектом стала полная деградация материалов в интернете. Поисковики, платформы и социальные сети оказались не готовы. Фильтры не успевают отличать осмысленный контент от бессмысленного. Если вам попадались мемы про tralalero tralala, то вы понимаете о чем идет речь.
Если раньше производство контента требовало времени, навыков и человеческих ресурсов, то теперь — лишь промпт и API-ключ. ИИ-контент может выглядеть убедительно и весело. Это формирует спрос даже на посредственные материалы, что делает спам ИИ-контентом экономически выгодным. А любая технология, позволяющая снизить затраты при сохранении результата, рано или поздно используется в коммерческих целях.
Источник.
Такое засорение интернета ИИ-контентом привело к целому ряду негативных эффектов. Доверия со стороны пользователей авторам теперь меньше, найти ценную информацию стало труднее, да и в целом пресловутый информационный шум перешел на новый уровень. А поскольку LLM подпитываются контентом друг друга, качество ухудшается и становится более неопределенным, как фотокопия фотокопии фотокопии.
Мусор на входе, мусор на выходе
Подумайте вот о чем: первая версия ChatGPT была последней моделью, обученной на полностью созданном человеком контенте. Каждая обучающая выборка для последующих моделей уже содержала ИИ-контент, который трудно проверить или даже отследить. Контент становится ненадежным или, говоря прямо, мусором. Он теряет качество, точность и разнообразие. Все начинает выглядеть одинаково, глупо и скучно.
В исследовании, проведенном в Университете Иоганна Гутенберга в Германии, ученые пришли к выводу, что если каждое следующее поколение моделей обучать в том числе на данных, сгенерированных предыдущим, то вскоре разнообразие выдаваемого контента неизбежно снизится. А скорость этого изменения зависит от соотношения реальных и сгенерированных ИИ данных.
Авторы двух других научных статей, опубликованных в 2023 году, пришли к такому же выводу о деградации моделей ИИ при обучении на синтетических, то есть сгенерированных ИИ, данных. Согласно исследованию ученых из Оксфорда, Кембриджа, Имперского колледжа Лондона, Университета Торонто и Эдинбургского университета, использование сгенерированного контента в обучении моделей вызывает в них необратимые дефекты.
Аналогично, исследователи из Стэнфорда и Университета Райса заявили: «Без достаточного количества свежих реальных данных в каждом поколении аутофагического (самопотребляющего) цикла будущие генеративные модели обречены на постепенное снижение качества или разнообразия».
Источник.
Если результатам поисковой системы уже нельзя доверять, а модели почти наверняка пируют этим мусором, то мы перешагнули порог в эпоху дегенеративного контента в интернете. На данный момент интернет, каким мы его когда-то знали, все еще узнаваем, но надолго ли?
Тем не менее, интернету есть куда расти и развиваться. Позитивным моментом здесь является потеря спроса на нейросетевой контент. Распространение генеративного ИИ в настоящее время диктуется шумихой, и если модели, обученные на низкокачественных данных, перестают быть полезными, спрос иссякает. Но люди еще не наигрались с инструментами генеративного ИИ. И всегда будут пользователи с неутолимым желанием создавать мемы, делиться ими и иным образом выражать себя в сети.
Интернет не полностью обречен
Я уже как-то писал об изменениях интернета, в том числе спровоцированных бурным развитием ИИ. К озвученным тогда тезисам могу добавить факты, которые вы и без меня наверняка заметили. Например, некоторые крупные медиа-ресурсы стали использовать специальные маркеры, обозначая контент, сгенерированный ИИ. Или вы могли слышать о том, как некоторые компании даже подают судебные иски из-за того, что их авторские материалы попали в обучающие выборки для ML-моделей.
Выходит, попытки провести четкую границу между человеческим и нейросетевым контентом предпринимают даже гигантские корпорации. Может, это значит, что не все потеряно? Может. Или есть другой сценарий: представьте, что какой-нибудь крупный ресурс вдруг четко разделит контент на нейросетевой и человеческий, причем первый оставит в бесплатном доступе, а второй, более качественный, спрячет за платной подпиской. Готовы ли вы к такому?
Источник.
Интернет-платформы должны признать, что творческие человеческие сообщества являются весьма ценными ресурсами для развития, а не просто источниками сырья для нейросетей. Способы их развития включают поддержку (и оплату) модераторов-людей и соблюдение авторских прав, которые защищают в течение разумного времени творческий контент от поглощения ИИ. Наконец, создателям и потребителям ИИ-контента нужно признать, что поддержание сети в чистоте от спама в их же собственных интересах.
Заключение
Слишком поздно останавливать появление ИИ. Вместо этого нам нужно сосредоточиться на том, чего мы хотим дальше, как развивать интернет, ориентированный на человека. Поисковые системы и социальные сети должны действовать, как издатели газет и журналов, которые заботятся о просвещении своего читателя.
ИИ-контент — это не просто технологический прогресс, а отражение наших экономических, социальных и культурных приоритетов. Его массовое появление и связанное с этим захламление интернета — закономерный результат сочетания дешевой генерации, экономических стимулов и несовершенства платформ. Однако осознание этой закономерности дает шанс переосмыслить, что такое качественный цифровой контент и как его сохранять в эпоху автоматизированного потока.
Источник.
В конечном итоге ИИ здесь, чтобы остаться и продолжать совершенствоваться вместе с нами.