Сколько сгенерированного ИИ контента вы видите каждый день? Вопрос риторический. Весело создавать изображения или получать быстрый ответ от нейросети на заковыристый вопрос. ИИ будет выдавать все, что кто-то попросит, пусть ответ будет и не очень хорошего качества в большинстве случаев. Зато быстро и иногда бесплатно. Но есть и обратная сторона: низкое качество, недостоверность, дипфейки. Конечно, ИИ лишь выполняет команды людей, но многие уже бьют тревогу о мертвом Хабре интернете, ведь объем нейросетевого контента скоро превысит объем контента от живых людей.

В этой статье хотелось бы развить мысль о том, что это закономерно. Несомненно, подавляющее большинство контента, создаваемого ИИ, — просто ужасно. Это ленивый, неинтересный, минимально жизнеспособный мусор, который публикуют контент-фермеры, боты или люди, которым просто нет дела до качества. Но это эволюционный этап детства ИИ и проба использования новых доступных инструментов. Такой сценарий был неизбежен.

Используйте навигацию, если не хотите читать текст целиком:
Закономерность
Хьюстон, у нас проблемы
Мусор на входе, мусор на выходе
Интернет не полностью обречен
Заключение

Закономерность


Интернет настолько переплелся с повседневной жизнью, что легко забыть, какое это выдающееся технологическое достижение. Всего за несколько десятилетий с момента появления Сети большая часть человеческих знаний была коллективно оцифрована и стала доступна ​​любому человеку с подключением к интернету.

Технологические компании разработали автоматизированные модели, чтобы взять на себя масштабную задачу фильтрации контента, открыв эру поисковиков. Самый известный и мощный из них, Google, способен привлечь миллионы пользователей на страницы, которые он ранжирует высоко, и обречь на безвестность те, которые он ранжирует низко.

В идеале интересы Google совпадают с интересами создателей контента и аудитории: люди хотят находить высококачественный, релевантный материал, а Google хочет, чтобы его поисковая система помогала находить такой материал. Но в отличие от людей, Google не умеет читать. Поисковик использует входящие ссылки и релевантные ключевые слова для оценки смысла и качества миллиардов индексируемых им страниц.


В ответ на это возникла многомиллиардная индустрия — поисковая оптимизация, или SEO. Ее задача — разрабатывать новые стратегии для сайтов, чтобы они ранжировались выше на страницах результатов поиска и, таким образом, получали больше трафика и прибыльных показов рекламы.

Однако SEO недобросовестно эксплуатируют люди, которые манипулируют системой, чтобы размещать не заслуживающий внимания материал — часто спам или обман — высоко в рейтингах результатов поиска. Пользователи поняли, как незаметно вставлять ключевые слова в контент, заставляя нужные сайты появляться в, казалось бы, не связанных с ними поисковых запросах.

Постоянно развивающиеся решения Google для фильтрации таких трюков влияли на стиль и содержание контента. Когда стало известно, что время, проведенное на странице, является фактором оценки алгоритма, контентмейкеры заставили пользователей кликать много раз по странице, чтобы получить нужную им информацию. К слову, это одна из причин, по которой каждый рецепт блюда в сети содержит полотно текста извилистых воспоминаний и только в самом конце — список ингредиентов.

Безусловно, SEO — это не только про ключевые слова и контент. Важна и разметка страницы, включая метатеги и семантику, и валидность HTML, и многое другое. Подробнее почитать можно в другой статье на Хабре. Проблема в том, что ради поисковой оптимизации некоторые контентмейкеры всерьез озадачиваются технической стороной вопроса, задвигая качество материалов на второй план, а порой и вовсе отдавая его на откуп генеративным нейросетям. В итоге в топе выдачи могут оказаться хорошо оптимизированные, но наполне��ные мусором страницы.

Следствием всего этого стало появление инструментов генеративного ИИ. Большие языковые модели обучаются на огромных массивах материала всего интернета. Они перерабатывают данные в неизмеримо сложную сеть вероятностей, что позволяет им синтезировать, казалось бы, новый и разумно созданный материал, писать код, резюмировать документы и отвечать на прямые вопросы способами, которые могут казаться человеческими.

При этом скорость генерации контента значительно превышает человеческие возможности, стоимость создания единицы контента стремится к нулю после обучения модели, а качество на первый взгляд кажется высоким, особенно при поверхностном просмотре.


Источник.

LLM начали разрушать традиционные отношения между производителем и потребителем контента. Если ввести в поисковик запрос «как починить сломанную фару», она выдаст список ссылок на сайты, из которых пользователь должен сам найти необходимую информацию. Если спросить LLM о том же, та предоставит понятную инструкцию, как починить. Кто-то может увидеть в этом улучшение: зачем продираться через уйму ссылок, чтобы найти нужный ответ, когда LLM аккуратно суммирует различные данные в понятный ответ? Точно так же технологические компании предположили, что эти разговорные персонализированные ответы — будущее поиска информации.

Так начался лавинообразный рост автоматически сгенерированного контента, иногда не отличимого от человеческого, но при этом лишенного глубины, оригинальности и достоверности.



Хьюстон, у нас проблемы


В США все началось с запуска TikTok в 2016 году, которому был нужен источник десятков тысяч видеороликов каждый день. Качество не имело значения — просто сырой тоннаж контента, чтобы ИИ мог создавать персонализированные подборки для пользователей. Маховик был запущен.

Аналогично, Марк Цукерберг не особо заботился о контенте на своих платформах и гораздо больше интересовался ИИ. Когда популярность TikTok резко возросла, компания Цукерберга сделала все возможное, чтобы достичь паритета с ByteDance и внедрила тот же тип глубокого обучения ИИ, что у TikTok.


Источник.

ИИ был нужен, чтобы удерживать пользователей в соцсетях. Результатом стал алгоритм, который стимулирует частое потребление контента и максимизирует зависимость. Эти материалы не должны быть качественными — они должны вызывать наиболее компульсивную реакцию человека.

С появлением генеративных инструментов создания материалов, пользователи стали массово ими пользоваться и делиться результатом в своих публикациях. Практически все хоть раз пользовались ChatGPT, Midjourney или другими нейросетями.

Изображения и видео, сгенерированные ИИ, распространились еще и потому, что приносили доход их создателям. Это стимулировало людей из развивающихся стран создавать контент, который нравится аудитории в США и Европе, где ставки на рекламу выше.

Странная природа некоторого контента может быть связана с тем, что создатели используют подсказки на хинди, урду и вьетнамском языках или используют машинный перевод на английский.


Источник.

В результате технологические компании и пользователи стали одинаково применять генеративный ИИ для создания больших объемов контента. Хотя изначальной проблемой было обилие публикаций, содержащих неточности, бессмыслицу и дезинформацию, долгосрочным эффектом стала полная деградация материалов в интернете. Поисковики, платформы и социальные сети оказались не готовы. Фильтры не успевают отличать осмысленный контент от бессмысленного. Если вам попадались мемы про tralalero tralala, то вы понимаете о чем идет речь.

Если раньше производство контента требовало времени, навыков и человеческих ресурсов, то теперь — лишь промпт и API-ключ. ИИ-контент может выглядеть убедительно и весело. Это формирует спрос даже на посредственные материалы, что делает спам ИИ-контентом экономически выгодным. А любая технология, позволяющая снизить затраты при сохранении результата, рано или поздно используется в коммерческих целях.


Источник.

Такое засорение интернета ИИ-контентом привело к целому ряду негативных эффектов. Доверия со стороны пользователей авторам теперь меньше, найти ценную информацию стало труднее, да и в целом пресловутый информационный шум перешел на новый уровень. А поскольку LLM подпитываются контентом друг друга, качество ухудшается и становится более неопределенным, как фотокопия фотокопии фотокопии.

Мусор на входе, мусор на выходе


Подумайте вот о чем: первая версия ChatGPT была последней моделью, обученной на полностью созданном человеком контенте. Каждая обучающая выборка для последующих моделей уже содержала ИИ-контент, который трудно проверить или даже отследить. Контент становится ненадежным или, говоря прямо, мусором. Он теряет качество, точность и разнообразие. Все начинает выглядеть одинаково, глупо и скучно.

В исследовании, проведенном в Университете Иоганна Гутенберга в Германии, ученые пришли к выводу, что если каждое следующее поколение моделей обучать в том числе на данных, сгенерированных предыдущим, то вскоре разнообразие выдаваемого контента неизбежно снизится. А скорость этого изменения зависит от соотношения реальных и сгенерированных ИИ данных.

Авторы двух других научных статей, опубликованных в 2023 году, пришли к такому же выводу о деградации моделей ИИ при обучении на синтетических, то есть сгенерированных ИИ, данных. Согласно исследованию ученых из Оксфорда, Кембриджа, Имперского колледжа Лондона, Университета Торонто и Эдинбургского университета, использование сгенерированного контента в обучении моделей вызывает в них необратимые дефекты.

Аналогично, исследователи из Стэнфорда и Университета Райса заявили: «Без достаточного количества свежих реальных данных в каждом поколении аутофагического (самопотребляющего) цикла будущие генеративные модели обречены на постепенное снижение качества или разнообразия».


Источник.

Если результатам поисковой системы уже нельзя доверять, а модели почти наверняка пируют этим мусором, то мы перешагнули порог в эпоху дегенеративного контента в интернете. На данный момент интернет, каким мы его когда-то знали, все еще узнаваем, но надолго ли?

Тем не менее, интернету есть куда расти и развиваться. Позитивным моментом здесь является потеря спроса на нейросетевой контент. Распространение генеративного ИИ в настоящее время диктуется шумихой, и если модели, обученные на низкокачественных данных, перестают быть полезными, спрос иссякает. Но люди еще не наигрались с инструментами генеративного ИИ. И всегда будут пользователи с неутолимым желанием создавать мемы, делиться ими и иным образом выражать себя в сети.

Интернет не полностью обречен


Я уже как-то писал об изменениях интернета, в том числе спровоцированных бурным развитием ИИ. К озвученным тогда тезисам могу добавить факты, которые вы и без меня наверняка заметили. Например, некоторые крупные медиа-ресурсы стали использовать специальные маркеры, обозначая контент, сгенерированный ИИ. Или вы могли слышать о том, как некоторые компании даже подают судебные иски из-за того, что их авторские материалы попали в обучающие выборки для ML-моделей.

Выходит, попытки провести четкую границу между человеческим и нейросетевым контентом предпринимают даже гигантские корпорации. Может, это значит, что не все потеряно? Может. Или есть другой сценарий: представьте, что какой-нибудь крупный ресурс вдруг четко разделит контент на нейросетевой и человеческий, причем первый оставит в бесплатном доступе, а второй, более качественный, спрячет за платной подпиской. Готовы ли вы к такому?


Источник.

Интернет-платформы должны признать, что творческие человеческие сообщества являются весьма ценными ресурсами для развития, а не просто источниками сырья для нейросетей. Способы их развития включают поддержку (и оплату) модераторов-людей и соблюдение авторских прав, которые защищают в течение разумного времени творческий контент от поглощения ИИ. Наконец, создателям и потребителям ИИ-контента нужно признать, что поддержание сети в чистоте от спама в их же собственных интересах.

Заключение


Слишком поздно останавливать появление ИИ. Вместо этого нам нужно сосредоточиться на том, чего мы хотим дальше, как развивать интернет, ориентированный на человека. Поисковые системы и социальные сети должны действовать, как издатели газет и журналов, которые заботятся о просвещении своего читателя.

ИИ-контент — это не просто технологический прогресс, а отражение наших экономических, социальных и культурных приоритетов. Его массовое появление и связанное с этим захламление интернета — закономерный результат сочетания дешевой генерации, экономических стимулов и несовершенства платформ. Однако осознание этой закономерности дает шанс переосмыслить, что такое качественный цифровой контент и как его сохранять в эпоху автоматизированного потока.


Источник.

В конечном итоге ИИ здесь, чтобы остаться и продолжать совершенствоваться вместе с нами.