Искусственный интеллект разрывает Википедию на части / Хабр

Добровольцы, поддерживающие цифровую энциклопедию, расходятся во мнениях относительно того, как бороться с ростом контента, создаваемого искусственным интеллектом, и дезинформацей.

Поскольку генеративный искусственный интеллект продолжает проникать во все аспекты культуры, люди, управляющие Википедией, расходятся во мнениях о том, как лучше поступить.

Во время недавнего обращения к сообществу стал виден раскол по поводу того, следует ли использовать большие языковые модели для создания контента. Хотя некоторые выразили мнение, что такие инструменты, как ChatGPT от OpenAI, могут помочь в создании и обобщении статей, другие относятся к этому насторожённо.

Опасения связаны с тем, что генерируемый машиной контент необходимо балансировать большим количеством человеческих рецензий, а иначе это приведёт к переполнению малоизвестных вики-проектов плохим контентом. Хотя ИИ-генераторы полезны для написания правдоподобного, похожего на человеческий, текста, они также склонны включать в текст ошибочную информацию и даже ссылаться на несуществующие источники и научные работы. Это часто приводит к тому, что тексты кажутся точными, но при ближайшем рассмотрении оказываются полностью сфабрикованными.

Эми Брукман — регентский профессор и старший помощник председателя школы интерактивных вычислений Технологического института Джорджии, автор книги «Стоит ли верить Википедии? Онлайн-сообщества и создание знания». Она говорит, что как и в случае с людьми, большие языковые модели хороши лишь настолько, насколько они способны отличить факт от вымысла.

«Наш единственный выход — использовать [большие языковые модели], но редактировать их и поручать кому-то проверять источники», — сказала Брукман изданию Motherboard.

Исследователям не потребовалось много времени, чтобы выяснить, что ChatGPT от OpenAI — ужасный выдумщик, что и приводит к конфузам студентов, которые полагаются исключительно на чатбота при написании своих сочинений. Иногда он придумывает статьи и их авторов. В других случаях он подставляет имена менее известных учёных к более известным, но делает это максимально уверенно. OpenAI даже заявила, что модель «испытывает галлюцинации», когда придумывает факты — этот термин был раскритикован некоторыми экспертами по ИИ как способ для компаний, занимающихся ИИ, избежать ответственности за то, что их инструменты распространяют дезинформацию.

«Риск для Википедии заключается в том, что люди могут снижать качество статей, вбрасывая туда непроверенную информацию, — добавила Брукман. — Я не думаю, что есть что-то плохое в том, чтобы использовать её творчество в качестве первого черновика, но каждый пункт должен быть проверен».

Фонд Викимедиа, некоммерческая организация, стоящая за сайтом, рассматривает возможность создания инструментов, облегчающих волонтёрам выявление контента, созданного ботами. Тем временем Википедия работает над проектом политики, которая устанавливает ограничения на использование добровольцами больших языковых моделей для создания контента.

В текущем проекте политики отмечается, что всем, кто не знаком с рисками больших языковых моделей, следует избегать их использования для создания контента Википедии, поскольку это может направить в Фонд Викимедиа поток исков о клевете и нарушениях авторских прав, от которых у некоммерческой организации есть защита, а у волонтёров Википедии — нет. Эти большие языковые модели также подвержены скрытым предубеждениям, которые часто приводят к созданию контента, перекошенного в сторону маргинальных и недостаточно представленных групп людей.

В сообществе также существуют разногласия по поводу того, следует ли разрешать крупным языковым моделям обучаться на материалах Википедии. Хотя открытый доступ — краеугольный камень принципов проектирования Википедии, некоторые опасаются, что неограниченный поиск данных в Интернете позволяет компаниям-разработчикам ИИ, таким как OpenAI, использовать открытый Интернет для создания закрытых коммерческих наборов данных для своих моделей. Это особенно проблематично, если содержание Википедии само генерируется искусственным интеллектом, создавая петлю обратной связи с потенциально необъективной информацией, если её не контролировать.

Одно из предложений, опубликованное в списке рассылки Википедии, привлекло внимание к идее использования BLOOM — большой языковой модели, выпущенной в прошлом году под новой лицензией Responsible AI License (RAIL), которая «сочетает в себе подход к лицензированию с открытым доступом и поведенческие ограничения, направленные на реализацию концепции ответственного использования ИИ». Подобно некоторым версиям лицензии Creative Commons, лицензия RAIL позволяет гибко использовать модель ИИ, но при этом накладывает некоторые ограничения — например, требует, чтобы любые производные модели чётко указывали, что их результаты получены с помощью ИИ, и чтобы все, что создано на их основе, подчинялось тем же правилам.

Мариана Фоссатти, координатор глобальной кампании, направленной на обеспечение доступа к знаниям в Интернете «Чьи знания?», независимо от географического положения и языка, — говорит, что большие языковые модели и Википедия находятся в петле обратной связи, которая вносит в тексты ещё больше предвзятости.

«У нас есть огромный массив знаний на более чем 300 языках», — сказал Фоссатти в интервью Motherboard. «Но, конечно, эти 300 разных языков также очень неравноценны. Английская Википедия гораздо богаче по содержанию, чем другие, и мы снабжаем системы искусственного интеллекта именно таким объёмом знаний».

ИИ не стал чем-то новым для википедистов: автоматизированные системы уже давно используются на сайте для выполнения таких задач, как машинный перевод и удаление вандализма. Но есть давние волонтёры, которые менее открыто относятся к идее расширения использования ИИ на платформе.

В заявлении Фонда Викимедиа некоммерческая организация сообщила, что ИИ представляет собой возможность помочь масштабировать работу волонтёров в Википедии и проектах Викимедиа.

«Основываясь на отзывах волонтёров, мы изучаем, как эти модели могут помочь устранить пробелы в знаниях и расширить доступ к знаниям и участие», — написал Motherboard представитель Фонда Викимедиа в своём заявлении. «Однако человеческое участие остаётся самым важным компонентом экосистемы знаний Викимедиа. ИИ лучше всего работает в качестве дополнения к работе, которую люди делают в нашем проекте».

На данный момент проект политики включает пункт, в котором прямо говорится, что для контента, созданного ИИ, необходимо указывать авторство в тексте. Брукман не считает, что некоторые проблемы, возникающие при использовании больших языковых моделей, сильно отличаются от преднамеренных и злонамеренных попыток редактирования страниц Википедии.

«Я не думаю, что это сильно отличается от борьбы с вандализмом, — добавила Брукман. — У нас есть стратегии борьбы с этим. Я думаю, что непроверенный контент, созданный ИИ, является формой вандализма, и мы можем использовать те же методы, которые мы используем для борьбы с вандализмом в Википедии, для борьбы с мусором, исходящим от ИИ».

В недавнем электронном письме, направленном в список рассылки Фонда Викимедиа, Селена Декельманн, главный специалист по продуктам и технологиям организации, отметила, что между волонтёрами и сотрудниками фонда существуют сложные проблемы, связанные с незавершёнными техническими миграциями, которые влияют на принятие решений в сообществе волонтёров.

«Мы должны быть в состоянии выбрать области технического обслуживания и технической миграции для определения приоритетов, а затем смириться с отказом от работы над другими проектами, чтобы завершить некоторые из этих больших проектов», — сказала Декельманн в электронном письме, полученном Motherboard.

Но до тех пор, по словам Брукман, редакторам и волонтёрам важно сохранять бдительность.

«Достоверность контента зависит только от количества людей, которые проверили его с помощью надёжных методов цитирования, — сказала Брукман. — Да, у генеративного ИИ нет сильных предпочтений в цитировании, поэтому мы должны проверять его работу. Я не думаю, что мы можем сказать людям «не используйте его», потому что они просто не послушаются. Я имею в виду, что я бы вернула джинна в бутылку, если бы вы мне разрешили это сделать. Но раз это невозможно, то всё, что мы можем делать, это проверять».