Возможно для кого-то это будет удивительно и даже возмутительно, но в Википедии информация не должна быть правдивой, важно, чтобы она была подтверждена достоверными источниками. Именно проблеме дезинформации и достоверности источников в Википедии был посвящён последний выпуск уходящего 2020 года Wikimedia Research Showcase. Это ежемесячное публичное мероприятие, на котором представляются последние работы исследовательской группы Фонда Викимедиа и приглашенных докладчиков из академического сообщества. Мне была предоставлена возможность рассказать о последних научных работах, проведённых совместно с сотрудниками нашей кафедры. В этой статье на Хабре я постараюсь коротко описать последние исследования нашей кафедры в области оценки качества информации и достоверности источников в многоязычной Википедии. Дополнительно представлены общедоступные инструменты для оценки качества и достоверности, основанные на научных исследованиях.
Видеотрансляция декабрьского выпуска 2020 года Wikimedia Research Showcase доступна на YouTube, а слайды с презентации размещены на SlideShare и figshare.
Многоязычность Википедии
Согласно Ethnologue, в мире люди разговаривают на более чем 7 тыс. языках, из которых почти 3 тыс. под угрозой исчезновения. Для сравнения, статьи Википедии доступны на 314 языках.
Более половины населения Земли разговаривает только на 23 языках. Самым популярным является английский, на нём разговаривает около 1.27 млрд человек. Однако, для более чем 70% из них - английский не является родным.
В своей научной диссертации, которая была защищена в марте 2019 года в польском университете, я описал метод сравнения и обогащения информации в многоязычных сайтах вики, основанный на анализе их качества. В качестве примера рассматривался наиболее популярный сайт вики – Википедия. Для проверки предложенного метода рассматривались 5 языковых разделов Википедии – английский, белорусский, польский, русский, украинский.
Знание этих языков и результаты исследований позволили мне прийти к выводу, что предложенные в диссертации алгоритмы можно использовать и для других языковых версий этой свободной энциклопедии (а также для других сайтов вики).
Википедию можно редактировать на каждом языке независимо, что приводит к таким проблемам как:
один и тот же объект (город, персона, событие и т.п.) можно описать по-разному,
пользователю обычно необходимо понимать эти языки для проверки/сравнения информации.
Дополнительно, сама оценка качества информации субъективна и зависит от языка Википедии:
каждый языковой раздел определяет свои правила и стандарты,
стандарты могут меняться со временем.
Одним из важных критериев качества информации в Википедии является наличие достоверных источников. Однако, оценка одного и того же источника зависит от языковой версии Википедии. Дополнительная проблема - надежность одного и того же источника может со временем измениться.
Оценка качества информации в Википедии
Каждое языковое издание Википедии может определять собственную систему оценок качества для статей. Часто каждая языковая версия имеет специальную отметку для статей, которые считаются лучшими - «Избранные статьи». Также есть отметка за качественные достойные статьи, не соответствующие критериям Избранных статей - они называются «Хорошие статьи».
В некоторых языковых версиях Википедии есть также другие оценки качества, которые могут отражать «зрелость» статьи. В английской Википедии, помимо наивысших оценок «FA» и «GA», есть ещё «A-класс», «B-класс», «C-класс», «Старт» и «Заглушка». В русской Википедии дополнительно к двум наивысшим оценкам есть ещё «Добротная статья», «I уровень», «II уровень», «III уровень» и «IV уровень». В польской Википедии есть три дополнительных класса: «Четверка», «Старт» и «Заглушка».
Несмотря на одинаковые названия, эквивалентные классы между языковыми версиями могут иметь различия в оценке стандартов. Например, в некоторых языковых версиях для высоких оценок существует ограничение на длину статьи. Следовательно, для каждой языковой версии может быть своя собственная модель качества, даже если у этих языков одинаковое количество оценок.
Дополнительная проблема - большое количество статей, не имеющих оценки качества. Некоторые языковые версии содержат более 90% неоцененных статей. Ниже представлена сравнительная таблица для некоторых языковых разделов Википедий (по порядку: белорусский, немецкий, английский, французский, польский, русский, украинский).
Чтобы определить параметры качества в Википедии, следует принять во внимание сходство этого веб-сайта с традиционными энциклопедиями и сайтами на технологии Веб 2.0. С одной стороны, контент в Википедии создан как ориентир в энциклопедическом стиле. С другой стороны, Википедия построена таким образом, чтобы пользователи могли сотрудничать и писать совместно материалы. Поэтому он основан на технологиях Веб 2.0.
На рисунке ниже показано покрытие между критериями качества сайтов Веб 2.0, традиционных энциклопедий и Википедии. Принимая во внимание критерии качества, принятые сообществом Википедии, мы можем выбрать следующие критерия (измерения) качества для статей Википедии: актуальность, достоверность, объективность, полнота, релевантность, стиль, читабельность.
Актуальность: насколько статья описывает текущее состояние определенной реальности (степень актуальности/своевременности информации).
Достоверность: можно ли проверить предоставленную информацию из надежных источников.
Объективность: насколько содержание статьи соответствует критерию нейтральной точки зрения, содержит ли она изображения и другие мультимедийные материалы, относящиеся к этой статье.
Полнота: насколько исчерпывающим является описание темы в статье.
Релевантность: насколько статья важна для читателей/пользователей и соответствует его информационным нуждам.
Стиль: как организовано содержание статьи (наличие и размещение дополнительных комментариев, таблиц, изображений, звуковых файлов и др.).
Читабельность: насколько текст понятен и свободен от ненужной сложности.
Важные параметры качества
Используя алгоритмы машинного обучения, мы можем определить, какие параметры (характеристики) статей Википедии являются наиболее важными для оценки качества. Пример таких параметров: количество слов в тексте статьи, количество изображений, посещение статьи за определённый период времени, сколько раз статья была редактирована и др.
Шесть лет назад мы опубликовали результаты исследований, в которых показали, что показатели вместе с их значимостью образуют определенный профиль языка, то есть один параметр важен для одного языка, другой лучше характеризует качество информации другого языкового раздела Википедии. Затем можно сравнивать разные языки.
Другой пример - в моей диссертации было использовано более 100 параметров для построения моделей качества для разных языков. Рисунок ниже показывает важность выбранных показателей в моделях прогнозирования качества в английской и русской Википедии.
Синтетический показатель качества
Мы обнаружили, что некоторые из показателей показали высокую важность при оценке качества статей на разных языках. Такие параметры обычно положительно коррелируют с оценками качества: длина статьи, количество изображений, примечаний (источников), разделов, авторов и др.
Шесть лет назад мы предложили способ оценки качества статей по непрерывной шкале (от 0 до 100), используя синтетический показатель качества, который включает в себя нормализованные значения важных параметров статей. Нормализация выбранных параметров зависит от языкового раздела Википедии, поскольку она использует пороговые значения, которые зависят от лучших статей в рассматриваемой языковой версии. Нормализация каждого параметра проводилась в соответствии со следующим правилом: если значение данного параметра на данном языке превышало пороговое значение медианного значения лучших статей в той же языковой версии, она принималась равной 100 баллам; в противном случае его значение линейно масштабировалось, чтобы отразить отношение значения параметра к среднему значению. Более подробную информацию об алгоритме и результатах его применения синтетического показателя качества на миллионах статей Википедии можно найти в научных публикациях в журналах Informatics и Computers.
Числовое значение качества статьи позволяет сравнивать качество статей даже между разными языковыми версиями Википедии. Это позволяет найти, какие темы (категорий) статей конкретного языкового раздела Википедии имеют информацию лучшего качества.
Оценки качества вместе с показателями популярности, цитируемости, интереса авторов могут использоваться для создания индивидуального профиля для каждой статьи Википедии в каждой языковой версии. Например, на рисунке ниже представлен такой профиль на портале ВикиРанк с информацией о качестве и популярности для статьи «Президентские выборы в США (2020)» в русскоязычной Википедии.
Источники информации в Википедии
Одним из важнейших факторов, влияющих на качество статей в Википедии, является наличие достоверных источников. Следуя ссылкам в примечаниях (сносках), читатели могут проверить факты или найти более подробную информацию по описанной теме. В одной из наших последних работ мы проанализировали более 40 миллионов статей из 55 наиболее развитых языковых разделов Википедии, чтобы извлечь информацию о более чем 200 миллионах примечаний (источников) и найти самые популярные и достоверные источники.
В вышеупомянутой публикации, мы использовали разные способы нахождения и извлечения информации об источниках статей Википедии. Например, комплексное извлечение основывалось на исходном коде статей (вики-разметка). Наличие некоторых примечаний невозможно определить напрямую на основании исходного (вики) кода статей. Иногда информационные блоки или таблицы в статье Википедии представлены лишь как шаблоны (ссылки в коде, которые позволяют получить содержимое из других страниц Википедии). На рисунке показана такая ситуация на примере таблицы со ссылками в статье Википедии о пандемии коронавируса, которая была добавлена с использованием шаблона. В нашем комплексном подходе мы учитывали содержание таких шаблонов.
Следующий рисунок показывает наиболее часто используемые шаблоны в тегах "<ref>" в английской Википедии. Среди наиболее часто используемых шаблонов в языковых версиях этой Википедии: ’Cite web’, ’Cite news’, ’Cite book’, ’Cite journal’ и другие.
Для русскоязычной Википедии среди наиболее популярных шаблонов можно встретить такие как: «Статья», «Книга», «Публикация» и др. Следующий рисунок иллюстрирует наиболее часто используемые шаблоны в тегах "<ref>" в русской Википедии.
Для других языковых разделов Википедии подобные рисунки можно найти в дополнительных материалах к научной статье.
Шаблоны с библиографической информацией
Некоторые часто используемые шаблоны в примечаниях подробно описывают источник – могут содержать информацию об авторах, издателе, дате публикации и др. Например, для английской Википедии наиболее часто заполняемые параметры таких шаблонов представлены на рисунке:
Для русскоязычной Википедии аналогичные данные выглядят так:
Для других языковых разделов результаты подобных исследований можно найти на странице с дополнительными материалами.
После анализа таких шаблонов с библиографией мы можем найти, например, популярных издателей в английской Википедии. Учитывая более 18 миллионов таких шаблонов, которые имеют значение в параметре «publisher» (издатель) можно сгенерировать рисунок, который показывает наиболее часто используемых издателей в источниках в английской Википедии.
Некоторые из самых популярных шаблонов позволяют добавлять идентификаторы к источнику, такие как DOI, JSTOR, PMC, PMID, arXiv, ISBN, ISSN, OCLC и другие. Часто такие идентификаторы указывают на научный источник информации. Рисунок ниже показывает, какая часть примечаний в некоторых языковых разделах Википедии содержит информацию об источниках с идентификаторами DOI, ISBN, ISSN, PMID, PMC.
Результаты показывают, что наиболее часто используются идентификаторы ISBN и DOI. Однако в общей «массе» примечаний встречаются не чаще чем в 10% случаев. Важно отметить, что наблюдается постепенное увеличение доли ссылок на научные публикации.
Модели популярности и надежности источников Википедии
В нашем недавнем исследовании мы предложили десять моделей, связанных с популярностью и надежностью источников. В большинстве случаев источник означает сайт (домен или поддомен) из URL-адреса в примечаниях.
Модель F - основанная на частоте (F) использования источника.
Модель P - основана на совокупном количестве просмотров страниц (P) статьи, в которой появляется источник.
Модель PR - основанная на совокупных просмотрах страниц (P) статьи, в которой появляется источник, разделенный на количество ссылок (R) в этой статье.
Модель PL - основана на совокупном количестве просмотров страниц (P) статьи, в которой указан источник, разделенный на длину статьи (L).
Модели Pm, PmR, PmL - это модифицированные версии со средним значением ежедневных просмотров страниц.
В моделях A, AR, AL используется количество авторов.
Если говорить про математическую составляющую, то для примера приведу формулу рассчёта для модели PR:
где:
s - источник,
n - номер по порядку рассматриваемой статьи Википедии,
C(i) - общее количество примечаний (сносок) в i-той статье,
Сs(i) - количество ссылок, использующих источник s (например, домен в URL) в i-той статье,
V(i) - суммарное количество просмотров i-той статьи.
Более подробное описание моделей (в том числе математическую состовляющую) можно найти в научной публикации в журнале Information.
Рассмотрим модель F, которая показывает частоту использования источника, т.е. сколько ссылок содержит анализируемый домен в URL. Этот метод часто использовался в смежных научных работах. Здесь мы учитываем общее количество появлений такой ссылки, т.е. если один и тот же источник цитируется 3 раза, мы считаем частоту как 3.
Для английской Википедии наиболее часто используемые сайты в примечаниях представлены на рисунке ниже:
Если мы рассмотрим результаты оценки источников на основании модели PR, то лидеры в английской Википедии будут выглядеть немного иначе:
Для русской Википедии аналогичный рисунок с результатами подсчёта на основе модели F выглядит так:
Модель PR вносит свои корректировки лидерства источников для русскоязычной Википедии:
В дополнительных материалах к публикации можно найти более расширенные результаты для различных языковый версий с использованием модели F и модели PR.
Как видим в зависимости от модели оценки популярности и достоверности мы можем получить разные результаты для одного и того же источника. Исследования показали, насколько сильно могут отличаться оценки достоверности также в зависимости от языкового раздела. Ниже представлена сравнительная таблица позиций в рейтинге популярности и достоверности для четырёх источников: nytimes.com, spiegel.de, lemonde.fr, elpais.com. Каждый источник был оценен с точки зрения различных языковых разделов Википедии и разных моделей.
Если мы рассматриваем сайты (домены) как источники, то их количество достигает более миллиона. Часть результатов по оценке каждого источника Википедии размещена в проекте BestRef. Для каждого источника в данном проекте имеется отдельный профиль, где показаны результаты оценки с использованием различных моделей и в рамках каждого языкового раздела Википедии. Для вышеуказанных четырёх источников это соответственно nytimes.com, spiegel.de, lemonde.fr, elpais.com. Отдельно можно ознакомится со списком наиболее популярных и достоверных источников в рамках конкретного языкового раздела (например русской Википедии). Ниже приведён пример списка источников и профиля отдельного сайта.
Используя разные модели популярности и достоверности, мы можем оценивать не только домены, но и отдельные типы источников. Например, на основании расширенной библиографической информации из шаблонов в примечаниях мы оценили всех издателей в источниках английской Википедии. В таблице ниже представлены самые популярные и достоверные издатели с позициями в рейтинге в зависимости от модели.
Инструменты для оценки качества информации и достоверности источников в Википедии
Результаты некоторых исследований были внедрены в отдельные общедоступные проекты. Более того, существуют даже расширения для браузеров, которые позволяют исследовать качество статей Википедии и их источников «на месте». Например, для исследования достоверности источников можно воспользоваться плагином BestRef для Chrome. Видео-презентация этого плагина:
Для оценки и сравнения качества и популярности статей Википедии можно использовать плагин ВикиРанк для Chrome и Firefox. Кратко, о том, как это работает, показано на этом видео.
Отдельно доступно расширение для оценки качества инфобоксов (информационных карточек) в браузере Chrome. На видео-презентации можно узнать, как это работает.
Что дальше?
Рассмотренные модели качества информации, популярности и достоверности источников могут помочь обогатить различные языковые версии Википедии и других баз знаний (таких как DBpedia, Викиданные) информацией более высокого качества. Некоторые из методов планируется интегрировать в проект GlobalFactSync (GFS). Цель проекта GFS - синхронизировать фактические данные во всех языковых разделах Википедии и Викиданных. Здесь фактические данные определяются как определенная «порция» информации, то есть значения данных, такие как «географические координаты», «население» (города), «даты рождения», «химические формулы», «участие в фильмах» или «место рождения», прикреплённые к объекту (в статье Википедия или элемент Викиданных) и в идеале со ссылкой на источник (происхождение этой информации).
Дополнительно, информация об оценке достоверности источников может помочь улучшить модели оценки качества статей в Википедии. Это может быть особенно полезно при сравнении несовпадающих фактов между языковыми версиями статей Википедии. Кроме того, одним из многообещающих направлений ближайших исследований является создание общедоступных инструментов, которые позволяли бы рекомендовать лучшие источники для отдельных утверждений и по выбранным темам в разных языковых разделах Википедии.
Предложенные в исследованиях модели не идеальны, и могут быть совершенствованы – тут огромное «поле для манёвров». Чем больше мы исследуем эту область, тем больше находим проблем и возможных способов их решения.
Более подробную информацию об исследованиях в этой области можно найти на сайте WikiQ. Если вас интересует эта тема - мы готовы рассмотреть сотрудничество в этом направлении. Вопросы и предложения можно оставлять на Хабре в комментариях или связаться другим способом.
Литература
Lewoniewski, W., Węcel, K., Abramowicz, W. (2020). Modeling Popularity and Reliability of Sources in Multilingual Wikipedia. Information, 11(5), 263. doi: 10.3390/info11050263
Lewoniewski, W., Węcel, K., Abramowicz, W. (2019). Multilingual ranking of Wikipedia articles with quality and popularity assessment in different topics. Computers, 8(3), 60. doi: 10.3390/computers8030060
Lewoniewski, W. (2019). Measures for quality assessment of articles and infoboxes in multilingual Wikipedia. In International Conference on Business Information Systems (pp. 619-633). Springer, Cham. doi: 10.1007/978-3-030-04849-5_53
Lewoniewski, W. (2018). The method of comparing and enriching information in multilingual wikis based on the analysis of their quality. PhD thesis
Lewoniewski, W., Węcel, K., Abramowicz, W. (2017). Relative quality and popularity evaluation of multilingual Wikipedia articles. Informatics 2017, 4(4), 43. doi: 10.3390/informatics4040043
Lewoniewski, W. (2017). Enrichment of information in multilingual Wikipedia based on quality analysis. In International Conference on Business Information Systems (pp. 216-227). Springer, Cham. doi: 10.1007/978-3-319-69023-0_19
Lewoniewski, W., Węcel, K., Abramowicz, W. (2017). Analysis of references across Wikipedia languages. In International Conference on Information and Software Technologies (pp. 561-573). Springer, Cham. doi: 10.1007/978-3-319-67642-5_47