Pull to refresh

Игра для улучшения качества Википедии

Game development *Big Data *Open data *Machine learning *Artificial Intelligence
Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image

Несмотря на свою популярность, Википедия часто критикуется за низкое качество информации. В научном мире существуют различные подходы к автоматической оценке качества статей в этой свободной энциклопедии. Однако, большое количество проблем все ещё не решено. Например, как автоматический оценить или сравнить качество отдельных фактов в разных языковых версиях на одну и туже тему?

В Википедии каждая статья может иметь несколько языковых версий (даже более чем 200). С одной стороны, это упрощает доступ к информации отдельным языковым сообществам. С другой стороны, это может создавать трудность в определении более качественной информации, т.к. каждая из этих версий может создаваться и редактироваться независимо друг от друга. Например, читателям и редакторам английской версии статьи о Екатеринбурге не обязательно знать, что написано об этом городе в русской версии Википедии, хотя можно ожидать, что как-раз в последней информация может быть лучшего качества (конечно, не во всех случаях это правило работает ;) ).

Игра WikiBest создана для того, чтобы на основании решений пользователей (игроков) в будущем с использованием машинного обучения и искусственного интеллекта построить алгоритмы для автоматического сравнения качества данных между отдельными языковыми версиями статей. Это может помочь выбрать более полную, актуальную и достоверную информацию, которые могла бы обогатить другие языковые версии Википедии.

Адрес игры

Первая короткая видео-лекция о том, как работает WikiBest:



Главные особенности


В настоящее время минимальные требования к игроку — знание 4 языков (русский, украинский, польский, английский) на базовом уровне, который бы позволял сравнивать содержимое карточек (по англ. «infobox», в упрощении — таблиц с данными) статей Википедии. Реккомендуется также знание белорусского — тогда будет возможность сравнивать качество во всех доступных 5 языковых версиях.

Для участия в игре необходима регистрация. После получения кода активации на почту — можно приступать к «борьбе» за качество в Википедии!)

На экране появляются карточки в 5 (4) языковых версиях на одну и туже тему — например это может быть город, компьютерная игра, университет, компания или другой объект. Для удобства сравнения данных окна с карточками можно перемещать. Для каждой языковой версии есть возможность отметить четыре опции относительно содержащихся в них данных: лучшее качество, лучшая полнота, лучшая актуальность, лучшая достоверность.

В идеале, каждая из доступных опций должна быть отмечена только один раз в рамках 5 (4) языков. Т.е. мы должны определить, кто лучший в каждой из четырёх «номинаций». Однако есть исключительные случаи, когда лучшими могут быть сразу две языковые версии. Тогда игра предлагает игроку добавить также комментарий, с информацией о том, почему он (она) так считает.

Для перехода к следующей пятерке (четвёрке) карточек необходимо нажать «Next». И повторяем по описанной выше схеме.

За проделанную работу в игре «зарабатывается» опыт, который ведет к повышению уровня.

В связи с тем, что исследования проводят в основном специалисты по машинному обучению и анализу данных, геймификации сервиса не является сильной стороной этого проекта ;) Этому еще придётся научиться. Буду рад ссылкам на полезные материалы в этом направлении.

Вообще говоря, проект некоммерческий. Любая помощь привествуется)

Немного теории


Что такое качество данных? Вопрос не простой, и у научного сообщества нету единого определения — всё зависит от контекста ;) Начнём с того, что оценка качества — понятие субъективное и зависит от конкретного человека, его знаний и опыта, а также спроса на эту информацию в данный момент времени. Проще говоря, качество данных можно определить, как пригодность для использования.

Для того, чтобы оценивать качество данных, необходимо также брать во внимание различные её характерестики, такие как, например, полнота, актуальность, достоверность.

В игре WikiBest полнота означает насколько широко описан объект. Т.е. необходимо просмотреть, какие характеристики вписаны в карточку — все ли основные параметры для данного объекта доступны для читателя. Например, если это город, то одними из важнейших параметров могут быть: население, площадь, мэр и др.

Актуальность связана с разницой между вписанными парметрами объекта и рельным положением дел. Например, более высокая актуальность данных о населении будет иметь карточка, где значение приводиться по состоянию на 2018 год, в сравнении с карточкой, где тот же параметр имеет значение с 2016 года.

Достоверность в контексте игры, показывает насколько информация подкреплена достоверными источниками. Таким образом читатель может проверить правильность вписанного значения конкретного параметра.

Почему именно 5 языков?


Как уже было упомянуто выше, игра является частью научных исследований, в которых я принимаю непосредственное участие. Я могу быть уверен в базовом знании этих языков, поэтому могу проводить исследования на полученных данных.

Что касается необязательности белорусского — это связано с величиной белорусского раздела Википедии. В настоящее время там ок. 150 тыс. статей. Для сравнения, украинская Вики уже содержит более 800 тыс., русская — почти 1.5 млн. (источник).

Главной целью проводимых научных исследований — обогатить менее развитые языковые разделы Википедии. В этом смысле у белорусско раздела большой потенциал — туда могут быть перенесены данные из других исследуемых языковых разделов. Однако, мы уже знаем, что качество данных зависит от темы и языковой версии, поэтому вначале необходимо определить «кандидата» для «копирования» (на самом деле еще нужен перевод этих данных — но это не проблема при использовании семантики).
Tags:
Hubs:
Total votes 21: ↑18 and ↓3 +15
Views 5.9K
Comments Comments 22