Автоматическая оценка качества статей Википедии на разных языках

Предлагаю Вашему вниманию обзорную статью научных работ, в которых я являюсь непосредственным участником и автором, на тему оценки качества Википедии на разных языках. Свои научные публикации на эту тему я пишу в основном на английском и польском языках. Я решил поделиться своими знаниями и опытом в этой области для русскоязычной аудитории, и выбрал Хабрахабр для первой такой статьи. Буду рад услышать комментарии и предложения на данную тему, возможно кто-то будет заинтересован в сотрудничестве в этом направлении. В следующих статьях я планирую более подробно остановиться на отдельных методиках и алгоритмах по анализу качества статей на разных языках. Также планирую размещать примеры кода (в основном Python), которые могут пригодиться для извлечения и анализа данных из Википедии.

image


Несмотря на то, что Википедия часто критикуется за ее низкое качество, она по-прежнему остается одной из самых популярных баз знаний в мире. В настоящее время эта интернет энциклопедия находится на 5 месте среди наиболее посещаемых сайтов в мире (после Google, Youtube, Facebook, Baidu). Статьи в данной энциклопедии создаются и редактируются на около 300 разных языках. В настоящее время Википедия содержит более 46 миллионов статей, охватывающих различные темы.

С каждым днём количество статей в Википедии растет. Они могут создаваться и редактироваться даже анонимными пользователями. Авторам не нужно формально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации.

Несмотря на это в Википедии можно иногда встретить ценную информацию — в зависимости от языковой версии и тематики. Практически в каждой языковой версии существует система наград для наилучших статей. Однако, таких статей очень мало (меньше одного процента). В некоторых языковых версиях существует возможность выставлять также другие оценки качества. Однако, подавляющая доля статей не имеет оценок (в некоторых языках более 99%).

Автоматическая оценка качества статей Википедии


Итак, в Википедии много статей не имеют оценок качества, поэтому каждый читатель должен самостоятельно анализировать их содержимое. Тема автоматической оценки качества статей Википедии в научном мире не нова. В основном, научные работы касаются самой развитой языковой версии Википедии — английской, которая уже содержит более 5.5 миллионов статей. Мною исследуются разные языковые версии Википедии: английская, русская, польская, белорусская, украинская, немецкая, французская и др.

С момента основания и с ростом популярности Википедии появляется всё больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема содержимого может помочь определить степень «зрелости» статьи. Работа в этом направлении показывает, что в целом более качественные статьи являются длинными, используют ссылки согласованным образом, редактируются сотнями авторов и имеют тысячи редакций (версий).

Как приходят к подобным заключениям? Проще говоря: сравнивают между собой хорошие и плохие статьи.


Как уже вспоминалось ранее, практически в каждой языковой версии Википедии существует система оценок качества статей. Самые лучшие статьи награждаются особым способом — получают специальный «значoк». В русской Википедии такие статьи называются "Избранные статьи" (ИС), в английский Википедии — «Featured Articles». Есть ещё другой «значок» для статей, которые немного не «дотягивают» до избранных — "Хорошие статьи" (ХС) (в английской версии — это «Good Articles»). В некоторых языковых версиях существует и другие оценки для более «слабых» статей. Например, в русской Википедии есть ещё: Добротная, Полная, Развитая, В развитии, Заготовка. В английской версии можно встретить ещё: A-class, B-class, C-class, Start, Stub. Уже на примере английской и русской версий, можно сделать вывод, что стандарты к градации оценок различны в зависимости от языка. Более того, далеко не все языковые версии Википедии имеют такую развитую систему оценок качества статей. Например, немецкая Википедия, которая содержит более 2 млн статей, использует только две оценки — аналоги ИС и ХС.

Поэтому часто оценки в научных работах объединяют по двум группам:[1][2][3][4][5][6][7]

  • «Полные» — оценки ИС и ХС,
  • «Неполные» — все остальные оценки.

Назовем этот метод «бинарным» (1 — Полные статьи, 0 — Неполные статьи). Такое разделение естественно «размывает» границы между отдельными классами, однако позволяет строить и сравнивать модели качества для разных языковых версий Википедии.

Data Mining


Для построения таких моделей можно использовать различные алгоритмы, в особенности Data Mining. В своих работах, я часто использую один из наиболее распространённых и эффективных алгоритмов — Random Forest[1][2][3][4][5][6][7] («Случайный лес»). Имеются даже исследования[4], которые сравнивают его с другими алгоритмами (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 и др.). Случайный лес позволяет строить модели даже с использованием независимых переменных, которые коррелируют друг с другом. Дополнительно, данный алгоритм может показать, какие именно переменные являются более значимые для определения качества статей. Если нам необходимо получить другую информацию о важности переменных, можно использовать другие алгоритмы, в том числе логистическую регрессию[13].

Результаты показывают, что существуют различия между моделями качества статей в разных языковых версиях Википедии[1][2][3][4]. Таким образом, если в одной языковой версии одним из наиболее важных параметров является количество примечаний (источников), в другом языке более важным будет количество изображений и длина текста.

Таким образом, качество моделируется, как вероятность отнесения статьи к одной из двух групп — Полные или Неполные. Вывод делается на основании анализа различных параметров: длина текста, количество примечаний, изображений, разделов, ссылок на статью, количество фактов[6], посещение, количество редакций и многих других. Имеется также ряд лингвистических параметров[5][7], которые зависят от рассматриваемого языка. В настоящее время суммарно в исследованиях используется более 300 параметров, в зависимости от языковой версии Википедии и сложности построенной модели. Некоторые параметры, такие как примечания (источники), могут оцениваться дополнительно[14] — то есть не только считать количество, а также оценивать насколько известные и надежные источники используются в статье Википедии.

Откуда взять эти параметры?


Источников несколько — это может быть резервные копии Википедии, сервис API, специальные инструменты и другие[12].

Для получения некоторых параметров необходимо просто отправить запрос в соотвествующий API, для других параметров (особенно лингвистических) необходимо использовать специальные библиотеки и парсеры. Значительная часть времени, однако, уходит на написание своих инструментов (на этом остановимся в отдельных статьях).

Существуют ли другие способы оценки качества статей кроме бинарного?


Да. В недавних исследованиях[8][9] предлагается способ оценки статей по шкале от 0 до 100 (как непрерывная оценка). Таким образом, статья может может получить, например, оценку 45.78. Этот способ протестирован на 55 языковых версиях. Результаты доступны в сервисе ВикиРанк, который позволяет оценивать и сравнивать качество и популярность статьи Википедии на разных языках. Способ, конечно, не идеален, но работает для локально известных тематик[9].



Есть ли способы оценивания качества не всей статьи Википедии, а ее части?


Конечно. Например одним из важных элементов статьи является так называемая «карточка» (infobox). Это отдельная рамка (таблица), которая расположена часто справа вверху статьи и показывает наиболее важные факты о субъекте. Таким образом, нет необходимости искать в тексте эту информацию — достаточно взглянуть на эту карточку. Оценке качества этих карточек посвящены отдельные исследования[2][11]. Существуют также проекты, такие как Infoboxes, которые позволяют автоматически сравнивать карточки в разных языковых версиях.

Зачем это всё?


Википедией пользуются часто, но не всегда проверяют качество информации. Предложенные методы могут упростить эту задачу: если статья является плохой, тогда пользователь, зная это, будет более осторожным в использовании ее материалов для принятия решений. С другой стороны, пользователь также может видеть, на каком языке интересующая его тема описана лучше. И самое важное, современные методики позволяют переносить информацию между различными языковыми версиями. Это означает, что можно автоматически обогатить слабые версии Википедии информацией высокого качества из других языковых версий[11]. Также это позволит повысить качество других семантических баз данных, для которых Википедия является основным источником информации. Прежде всего, это — DBpedia, Wikidata (Викиданные), YAGO2 и другие.





Источник иллюстраций — [8]

Литература


Поделиться публикацией
Комментарии 4
    +1
    Всё это сильно напоминает мне систему ранжирования, используемую поисковыми машинами.
    Такие: www.searchmetrics.com/wp-content/uploads/Searchmetrics-Ranking-Factors-Infographic-EN-Print.pdf, включая коммерческие факторы (актуально для Яндекса) siteclinic.ru/blog/internal-optimization/kommercheskie-faktory-ranzhirovaniya
      0
      323 иллюстрации в статье?! 680 внешних ссылок?! Это как?

      В фильме «Википедия» википедия критиковалась за:
      1. необоснованность
      2. войну правок
      3. меритократию
      Как я понял — неконтролируемая необоснованность формирует плохие и ложные статьи.
      Война правок — политизированные статьи.
      Меритократия — потолок качества, не пропускающий верные правки через самолюбивых властных редакторов.
      То есть это системные глюки, которые в принципе искажают ценность информации в ней.
      Тем не менее, я рад, что википедия признана Unesco культурным сокровищем человечества. Она привнесла непревзойдённую доступность как на чтение, в отличие от редакторских экциклопедий; так и на запись, позволяя невиданный ранее охват тематик. Это стоит отметить.
        0
        323 иллюстрации в статье?!
        Вероятно, учитываются иллюстрации, используемые для оформления. Иконок флагов вполне могут быть сотни.
        680 внешних ссылок?! Это как?
        «Клуб Винкс» — предпоследняя избранная статья в русской Википедии. 220 сносок, 13 публикаций, 4 ссылки на сайты. Почти каждая ссылка дублируется ссылкой на веб-архив. Итого получаем порядка 500 ссылок.
          0

          В России 660 сносок, что легко даст порядка тысячи внешних ссылок.

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое