Автоматическая оценка качества статей Википедии на разных языках / Хабр

Предлагаю Вашему вниманию обзорную статью научных работ, в которых я являюсь непосредственным участником и автором, на тему оценки качества Википедии на разных языках. Свои научные публикации на эту тему я пишу в основном на английском и польском языках. Я решил поделиться своими знаниями и опытом в этой области для русскоязычной аудитории, и выбрал Хабрахабр для первой такой статьи. Буду рад услышать комментарии и предложения на данную тему, возможно кто-то будет заинтересован в сотрудничестве в этом направлении. В следующих статьях я планирую более подробно остановиться на отдельных методиках и алгоритмах по анализу качества статей на разных языках. Также планирую размещать примеры кода (в основном Python), которые могут пригодиться для извлечения и анализа данных из Википедии.

Несмотря на то, что Википедия часто критикуется за ее низкое качество, она по-прежнему остается одной из самых популярных баз знаний в мире. В настоящее время эта интернет энциклопедия находится на 5 месте среди наиболее посещаемых сайтов в мире (после Google, Youtube, Facebook, Baidu). Статьи в данной энциклопедии создаются и редактируются на около 300 разных языках. В настоящее время Википедия содержит более 46 миллионов статей, охватывающих различные темы.

С каждым днём количество статей в Википедии растет. Они могут создаваться и редактироваться даже анонимными пользователями. Авторам не нужно формально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации.

Несмотря на это в Википедии можно иногда встретить ценную информацию — в зависимости от языковой версии и тематики. Практически в каждой языковой версии существует система наград для наилучших статей. Однако, таких статей очень мало (меньше одного процента). В некоторых языковых версиях существует возможность выставлять также другие оценки качества. Однако, подавляющая доля статей не имеет оценок (в некоторых языках более 99%).

Автоматическая оценка качества статей Википедии

Итак, в Википедии много статей не имеют оценок качества, поэтому каждый читатель должен самостоятельно анализировать их содержимое. Тема автоматической оценки качества статей Википедии в научном мире не нова. В основном, научные работы касаются самой развитой языковой версии Википедии — английской, которая уже содержит более 5.5 миллионов статей. Мною исследуются разные языковые версии Википедии: английская, русская, польская, белорусская, украинская, немецкая, французская и др.

С момента основания и с ростом популярности Википедии появляется всё больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема содержимого может помочь определить степень «зрелости» статьи. Работа в этом направлении показывает, что в целом более качественные статьи являются длинными, используют ссылки согласованным образом, редактируются сотнями авторов и имеют тысячи редакций (версий).

Как приходят к подобным заключениям? Проще говоря: сравнивают между собой хорошие и плохие статьи.
Распределение параметров в статьях каждого класса качества на английском языке Википедия (признанная статья (FA) - наивысшая оценка, Stub - самая низкая)

Распределение параметров в статьях каждого класса качества на английском языке Википедия (признанная статья (FA) - наивысшая оценка, Stub - самая низкая)

Как уже вспоминалось ранее, практически в каждой языковой версии Википедии существует система оценок качества статей. Самые лучшие статьи награждаются особым способом — получают специальный «значoк». В русской Википедии такие статьи называются "Избранные статьи" (ИС), в английский Википедии — «Featured Articles». Есть ещё другой «значок» для статей, которые немного не «дотягивают» до избранных — "Хорошие статьи" (ХС) (в английской версии — это «Good Articles»). В некоторых языковых версиях существует и другие оценки для более «слабых» статей. Например, в русской Википедии есть ещё: Добротная, Полная, Развитая, В развитии, Заготовка. В английской версии можно встретить ещё: A-class, B-class, C-class, Start, Stub. Уже на примере английской и русской версий, можно сделать вывод, что стандарты к градации оценок различны в зависимости от языка. Более того, далеко не все языковые версии Википедии имеют такую развитую систему оценок качества статей. Например, немецкая Википедия, которая содержит более 2 млн статей, использует только две оценки — аналоги ИС и ХС.

Поэтому часто оценки в научных работах объединяют по двум группам:^[1]^[2]^[3]^[4]^[5]^[6]^[7]

«Полные» — оценки ИС и ХС,
«Неполные» — все остальные оценки.

Назовем этот метод «бинарным» (1 — Полные статьи, 0 — Неполные статьи). Такое разделение естественно «размывает» границы между отдельными классами, однако позволяет строить и сравнивать модели качества для разных языковых версий Википедии.

Data Mining

Для построения таких моделей можно использовать различные алгоритмы, в особенности Data Mining. В своих работах, я часто использую один из наиболее распространённых и эффективных алгоритмов — Random Forest^[1]^[2]^[3]^[4]^[5]^[6]^[7] («Случайный лес»). Имеются даже исследования^[4], которые сравнивают его с другими алгоритмами (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 и др.). Случайный лес позволяет строить модели даже с использованием независимых переменных, которые коррелируют друг с другом. Дополнительно, данный алгоритм может показать, какие именно переменные являются более значимые для определения качества статей. Если нам необходимо получить другую информацию о важности переменных, можно использовать другие алгоритмы, в том числе логистическую регрессию^[13].

Результаты показывают, что существуют различия между моделями качества статей в разных языковых версиях Википедии^[1]^[2]^[3]^[4]. Таким образом, если в одной языковой версии одним из наиболее важных параметров является количество примечаний (источников), в другом языке более важным будет количество изображений и длина текста.

Таким образом, качество моделируется, как вероятность отнесения статьи к одной из двух групп — Полные или Неполные. Вывод делается на основании анализа различных параметров: длина текста, количество примечаний, изображений, разделов, ссылок на статью, количество фактов^[6], посещение, количество редакций и многих других. Имеется также ряд лингвистических параметров^[5]^[7], которые зависят от рассматриваемого языка. В настоящее время суммарно в исследованиях используется более 300 параметров, в зависимости от языковой версии Википедии и сложности построенной модели. Некоторые параметры, такие как примечания (источники), могут оцениваться дополнительно^[14] — то есть не только считать количество, а также оценивать насколько известные и надежные источники используются в статье Википедии.

Откуда взять эти параметры?

Источников несколько — это может быть резервные копии Википедии, сервис API, специальные инструменты и другие^[12].

Для получения некоторых параметров необходимо просто отправить запрос в соотвествующий API, для других параметров (особенно лингвистических) необходимо использовать специальные библиотеки и парсеры. Значительная часть времени, однако, уходит на написание своих инструментов (на этом остановимся в отдельных статьях).

Существуют ли другие способы оценки качества статей кроме бинарного?

Да. В недавних исследованиях^[8]^[9] предлагается способ оценки статей по шкале от 0 до 100 (как непрерывная оценка). Таким образом, статья может может получить, например, оценку 45.78. Этот способ протестирован на 55 языковых версиях. Результаты доступны в сервисе ВикиРанк, который позволяет оценивать и сравнивать качество и популярность статьи Википедии на разных языках. Способ, конечно, не идеален, но работает для локально известных тематик^[9].

Распределение показателей качества для трех языковых версий Википедии (английский, немецкий и французский) в 12 рассмотренных темах

Распределение показателей качества для трех языковых версий Википедии (английский, немецкий и французский) в 12 рассмотренных темах

Есть ли способы оценивания качества не всей статьи Википедии, а ее части?

Конечно. Например одним из важных элементов статьи является так называемая «карточка» (infobox). Это отдельная рамка (таблица), которая расположена часто справа вверху статьи и показывает наиболее важные факты о субъекте. Таким образом, нет необходимости искать в тексте эту информацию — достаточно взглянуть на эту карточку. Оценке качества этих карточек посвящены отдельные исследования^[2]^[11]. Существуют также проекты, такие как Infoboxes, которые позволяют автоматически сравнивать карточки в разных языковых версиях.

Зачем это всё?

Википедией пользуются часто, но не всегда проверяют качество информации. Предложенные методы могут упростить эту задачу: если статья является плохой, тогда пользователь, зная это, будет более осторожным в использовании ее материалов для принятия решений. С другой стороны, пользователь также может видеть, на каком языке интересующая его тема описана лучше. И самое важное, современные методики позволяют переносить информацию между различными языковыми версиями. Это означает, что можно автоматически обогатить слабые версии Википедии информацией высокого качества из других языковых версий^[11]. Также это позволит повысить качество других семантических баз данных, для которых Википедия является основным источником информации. Прежде всего, это — DBpedia, Wikidata (Викиданные), YAGO2 и другие.

Карточка с источниками данных и его извлечением в DBpedia из разных языковых версий Википедии

Карточка с источниками данных и его извлечением в DBpedia из разных языковых версий Википедии

Схема обогащения карточки Википедии на основе оценки качества и популярности информации других языковых версий

Источник иллюстраций — [8]

Литература

[1] Lewoniewski, W., Węcel, K., & Abramowicz, W. (2016). Quality and Importance of Wikipedia Articles in Different Languages. In International Conference on Information and Software Technologies (pp. 613-624). Springer International Publishing. DOI: 10.1007/978-3-319-46254-7_50
[2] Węcel, K., & Lewoniewski, W. (2015). Modelling the quality of attributes in Wikipedia infoboxes. In International Conference on Business Information Systems (pp. 308-320). Springer International Publishing. DOI: 10.1007/978-3-319-26762-3_27
[3] Lewoniewski, W., Węcel, K., & Abramowicz, W. (2015). Analiza porównawcza modeli jakości informacji w narodowych wersjach Wikipedii. Prace Naukowe/Uniwersytet Ekonomiczny w Katowicach, 133-154.
[4] Lewoniewski, W., Węcel, K., Abramowicz, W. (2017), Analiza porównawcza modeli klasyfikacyjnych w kontekście oceny jakości artykułów Wikipedii, Matematyka i informatyka na usługach ekonomii, Wydawnictwo UEP Poznań, ISBN 9788374179386
[5] Khairova, N., Lewoniewski, W., & Węcel, K. (2017). Estimating the quality of articles in Russian Wikipedia using the logical-linguistic model of fact extraction. In International Conference on Business Information Systems (pp. 28-40). Springer, Cham. DOI: 10.1007/978-3-319-59336-4_3
[6] Lewoniewski, W., Khairova, N., Węcel, K., Stratiienko, N., & Abramowicz, W. (2017). Using Morphological and Semantic Features for the Quality Assessment of Russian Wikipedia. In International Conference on Information and Software Technologies (pp. 550-560). Springer, Cham. DOI: 10.1007/978-3-319-67642-5_46
[7] Lewoniewski, W., Wecel, K., & Abramowicz, W. (2017). Determining Quality of Articles in Polish Wikipedia Based on Linguistic Features. DOI: 10.20944/preprints201801.0017.v1
[8] Lewoniewski, W., Węcel, K., & Abramowicz, W. (2017). Relative Quality and Popularity Evaluation of Multilingual Wikipedia Articles. In Informatics (Vol. 4, No. 4, p. 43). Multidisciplinary Digital Publishing Institute. DOI: 10.3390/informatics4040043
[9] Lewoniewski, W., & Węcel, K. (2017). Relative quality assessment of Wikipedia articles in different languages using synthetic measure. In International Conference on Business Information Systems (pp. 282-292). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_24
[10] Lewoniewski, W. (2017). Enrichment of Information in Multilingual Wikipedia Based on Quality Analysis. In International Conference on Business Information Systems (pp. 216-227). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_19
[11] Lewoniewski, W. (2017). Completeness and Reliability of Wikipedia Infoboxes in Various Languages. In International Conference on Business Information Systems (pp. 295-305). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_25
[12] Lewoniewski, W., Węcel, K., (2017), Cechy artykułów oraz metody ich ekstrakcji na potrzeby oceny jakości informacji w Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.7
[13] Lamek, A., Lewoniewski, W. (2017), Zastosowanie regresji logistycznej w ocenie jakości informacji na przykładzie Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.3
[14] Lewoniewski, W., Węcel, K., Abramowicz, W., (2017), Analysis of References across Wikipedia Languages. Information and Software Technologies. ICIST 2017. DOI: 10.1007/978-3-319-67642-5_47