
Большие языковые модели (LLM), которые буквально за последние пару лет научились писать тексты почти как человек, теперь начинают активно взаимодействовать с крупнейшей онлайн-энциклопедией в мире — Википедией. Исследователи из Китая решили разобраться, что происходит, когда ИИ встречается с коллективным разумом тысяч добровольцев.
"Самое интересное здесь — это своего рода замкнутый круг", — поясняют авторы исследования. LLM учатся на статьях Википедии, а затем начинают сами влиять на ее контент. Это создает риск того, что качество знаний может пострадать из-за "гомогенизации" или внедрения специфических для ИИ предубеждений. А ведь именно Википедия лежит в основе множества современных задач на естественном языке, от машинного перевода до систем генерации ответов.
Что выяснили исследователи?

Команда ученых провела масштабный анализ влияния LLM на Википедию за период с 2020 по 2025 год. Они сосредоточились на нескольких ключевых аспектах:
Лексические изменения. Оказалось, что частота использования некоторых слов, таких как "crucial" и "additionally", заметно увеличилась. Эти термины часто встречаются в текстах, написанных или отредактированных LLM. По оценкам, это влияние составляет от 1% до более чем 2% в отдельных категориях.
Дело в том, что такие изменения могут сигнализировать о постепенной трансформации языка Википедии под влиянием ИИ. Например, если раньше статьи писались живым языком с использованием разговорных оборотов, то теперь тексты становятся более формализованными и структурированными.
Лингвистический стиль. Тексты, обработанные LLM, стали немного менее удобочитаемыми по традиционным формулам, например, по индексу Флеша-Кинкейда. Также наблюдается снижение использования вспомогательных глаголов — это характерная черта стиля, который предпочитают языковые модели.
Интересно, что эти изменения не всегда заметны на первый взгляд. Однако при внимательном анализе становится очевидно, что тексты, отредактированные ИИ, имеют свою уникальную "подпись". Например, они реже используют конструкции с пассивным залогом и чаще применяют сложные синтаксические структуры.
Влияние на просмотры страниц. Интересно, что во второй половине 2024 года количество просмотров в некоторых научных категориях Википедии слегка снизилось. Однако связь этого явления с влиянием LLM пока остается неопределенной.
Авторы исследования отмечают, что это может быть связано с изменением поведения пользователей. Возможно, люди начинают обращаться к альтернативным источникам информации, если замечают, что стиль статей становится слишком формальным или трудным для восприятия.
Как это влияет на задачи обработки естественного языка?
Здесь все становится еще интереснее. Авторы проверили, как контент, созданный или отредактированный LLM, влияет на задачи машинного перевода и системы генерации ответов на основе поиска (RAG):
Машинный перевод: Если бенчмарки основаны на контенте Википедии, обработанном LLM, оценки моделей перевода могут быть искусственно завышены. Это создает иллюзию прогресса, хотя реальные ограничения технологий остаются незамеченными.
Например, если модель перевода обучена на текстах, где часто используется слово "crucial", она может лучше справляться с переводом таких терминов, но хуже работать с более разговорными или специализированными выражениями.
Системы RAG: Эффективность этих систем снижается при работе с контентом, отредактированным LLM. Причина — появление вводящих в заблуждение синтаксических структур и потеря информации.
Представьте, что вы задаете вопрос RAG-системе, основанной на Википедии. Если исходный текст был переформулирован ИИ, система может предоставить неточный или даже ошибочный ответ. Это особенно критично для научных и технических тем, где точность имеет ключевое значение.
Риски и возможности

Исследование подчеркивает, что даже ограниченное влияние LLM (около 1-2%) может иметь серьезные последствия. Например, снижение надежности Википедии как источника знаний может затронуть образование, научные исследования и повседневное использование.
Однако не все так плохо. Ученые видят и потенциальные возможности:
Автоматизация рутинных задач: LLM могут помочь в выявлении ошибок, улучшении качества текста и обобщении информации. Например, если в статье есть противоречивые данные, ИИ может предложить варианты их корректировки.
Расширение доступа: Использование LLM может способствовать переводу статей на новые языки и расширению охвата тематик. Это особенно важно для языков с ограниченным количеством редакторов-добровольцев.
Коэволюция человека и ИИ: Википедия может стать мостом между людьми и ИИ, открывая новые формы совместного создания знаний. Например, ИИ может предлагать идеи для новых статей или помогать структурировать информацию.
LLM только начинают оказывать заметное влияние на Википедию, но даже эти первые шаги показывают, что ситуация требует внимания. "Мы стоим на пороге важных изменений, — заключают авторы. — Нам нужно найти баланс между автоматизацией и сохранением качества коллективного знания".
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.