Игра для улучшения качества Википедии

    Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

    image

    Несмотря на свою популярность, Википедия часто критикуется за низкое качество информации. В научном мире существуют различные подходы к автоматической оценке качества статей в этой свободной энциклопедии. Однако, большое количество проблем все ещё не решено. Например, как автоматический оценить или сравнить качество отдельных фактов в разных языковых версиях на одну и туже тему?

    В Википедии каждая статья может иметь несколько языковых версий (даже более чем 200). С одной стороны, это упрощает доступ к информации отдельным языковым сообществам. С другой стороны, это может создавать трудность в определении более качественной информации, т.к. каждая из этих версий может создаваться и редактироваться независимо друг от друга. Например, читателям и редакторам английской версии статьи о Екатеринбурге не обязательно знать, что написано об этом городе в русской версии Википедии, хотя можно ожидать, что как-раз в последней информация может быть лучшего качества (конечно, не во всех случаях это правило работает ;) ).

    Игра WikiBest создана для того, чтобы на основании решений пользователей (игроков) в будущем с использованием машинного обучения и искусственного интеллекта построить алгоритмы для автоматического сравнения качества данных между отдельными языковыми версиями статей. Это может помочь выбрать более полную, актуальную и достоверную информацию, которые могла бы обогатить другие языковые версии Википедии.

    Адрес игры

    Первая короткая видео-лекция о том, как работает WikiBest:



    Главные особенности


    В настоящее время минимальные требования к игроку — знание 4 языков (русский, украинский, польский, английский) на базовом уровне, который бы позволял сравнивать содержимое карточек (по англ. «infobox», в упрощении — таблиц с данными) статей Википедии. Реккомендуется также знание белорусского — тогда будет возможность сравнивать качество во всех доступных 5 языковых версиях.

    Для участия в игре необходима регистрация. После получения кода активации на почту — можно приступать к «борьбе» за качество в Википедии!)

    На экране появляются карточки в 5 (4) языковых версиях на одну и туже тему — например это может быть город, компьютерная игра, университет, компания или другой объект. Для удобства сравнения данных окна с карточками можно перемещать. Для каждой языковой версии есть возможность отметить четыре опции относительно содержащихся в них данных: лучшее качество, лучшая полнота, лучшая актуальность, лучшая достоверность.

    В идеале, каждая из доступных опций должна быть отмечена только один раз в рамках 5 (4) языков. Т.е. мы должны определить, кто лучший в каждой из четырёх «номинаций». Однако есть исключительные случаи, когда лучшими могут быть сразу две языковые версии. Тогда игра предлагает игроку добавить также комментарий, с информацией о том, почему он (она) так считает.

    Для перехода к следующей пятерке (четвёрке) карточек необходимо нажать «Next». И повторяем по описанной выше схеме.

    За проделанную работу в игре «зарабатывается» опыт, который ведет к повышению уровня.

    В связи с тем, что исследования проводят в основном специалисты по машинному обучению и анализу данных, геймификации сервиса не является сильной стороной этого проекта ;) Этому еще придётся научиться. Буду рад ссылкам на полезные материалы в этом направлении.

    Вообще говоря, проект некоммерческий. Любая помощь привествуется)

    Немного теории


    Что такое качество данных? Вопрос не простой, и у научного сообщества нету единого определения — всё зависит от контекста ;) Начнём с того, что оценка качества — понятие субъективное и зависит от конкретного человека, его знаний и опыта, а также спроса на эту информацию в данный момент времени. Проще говоря, качество данных можно определить, как пригодность для использования.

    Для того, чтобы оценивать качество данных, необходимо также брать во внимание различные её характерестики, такие как, например, полнота, актуальность, достоверность.

    В игре WikiBest полнота означает насколько широко описан объект. Т.е. необходимо просмотреть, какие характеристики вписаны в карточку — все ли основные параметры для данного объекта доступны для читателя. Например, если это город, то одними из важнейших параметров могут быть: население, площадь, мэр и др.

    Актуальность связана с разницой между вписанными парметрами объекта и рельным положением дел. Например, более высокая актуальность данных о населении будет иметь карточка, где значение приводиться по состоянию на 2018 год, в сравнении с карточкой, где тот же параметр имеет значение с 2016 года.

    Достоверность в контексте игры, показывает насколько информация подкреплена достоверными источниками. Таким образом читатель может проверить правильность вписанного значения конкретного параметра.

    Почему именно 5 языков?


    Как уже было упомянуто выше, игра является частью научных исследований, в которых я принимаю непосредственное участие. Я могу быть уверен в базовом знании этих языков, поэтому могу проводить исследования на полученных данных.

    Что касается необязательности белорусского — это связано с величиной белорусского раздела Википедии. В настоящее время там ок. 150 тыс. статей. Для сравнения, украинская Вики уже содержит более 800 тыс., русская — почти 1.5 млн. (источник).

    Главной целью проводимых научных исследований — обогатить менее развитые языковые разделы Википедии. В этом смысле у белорусско раздела большой потенциал — туда могут быть перенесены данные из других исследуемых языковых разделов. Однако, мы уже знаем, что качество данных зависит от темы и языковой версии, поэтому вначале необходимо определить «кандидата» для «копирования» (на самом деле еще нужен перевод этих данных — но это не проблема при использовании семантики).
    Поделиться публикацией
    Комментарии 22
      +3
      Как будто прочитал вступление, и дальше должно быть написано про игру.
        +1
        Правильное замечание, спасибо. Добавлено немного материала в статью ;)
        +1
        «You must know at least English, Polish, Russian, Ukrainian language ;)»
        И много таких людей найдется? Я белорус, отметил три языка, не пустило. Сомнительно как-то
          0
          Планируется, что будет уменьшены требования к знанию языков, а также будет расширен список для выбора. В настоящее время, для проведения предварительных научных исследований по уже готовым алгоритмам, необходимы игроки-эксперты со знанием хотябы 4 указанных.
            +3
            Очень сильное ограничение. Я могу читать на белорусском, украинском и русском (ну и английском, конечно), но польский язык за гранью добра и зла.
            +1
            Согласен, выглядит странно. Логично было бы пускать с любыми языками в количестве >= 2 и показывать эти карточки соответственно выбранным языкам. Тем более после ввода остальных языков только такой вариант и возможен
              0
              Верно, в этом и заключается постепенное развитие игры). Добавил немного информации о том, почему именно 5 языков исследуются.
            0
            После регистрации на почту пришла ссылка с кодом, при переходе — «Activation code is invalid».
            Доступа в личный кабинет для активации «в ручном режиме» тоже нет.
            Я пытался)
              0
              Спасибо, нашли ошибку. Исправлено, аккаунт активирован)
                0
                Спасибо, получилось зайти и пройти один набор карточек. Поля для фидбека не нашел, поэтому напишу здесь: очень нужно, чтобы карточки запоминали свои позиции. Либо просто сделать это в формате фиксированной таблицы, почему нет? Сейчас получается, что размещение карточек занимает столько же времени, сколько сама обработка информации
                  0
                  Отличная идея, благодарю. Думаю, что будет исправлено в ближайшее время)
            • НЛО прилетело и опубликовало эту надпись здесь
                0
                Согласен, Википедия богата на языки. Белорусский кстати там представлен в двух разделах — есть еще тарашкевіца. После получения результатов по игре и проведения экспериментов — можем и эти языковые разделы обогатить ;)
                  0
                  Белорусский отличается от русского приблизительно так же, как и украинский от русского. А вот между собой они похожи.
                    0
                    Очень даже похожи, однако этих два языковых раздела теоретически являются независимыми друг от друга (как и другие языки между собой в Википедии). Т.е. темы, которые более качественно раскрыты в одном языке не переносятся автоматически в другую — должно быть заинтересованные лица, которые будут эту работу выполнять ;)
                  +1
                  Идея интересная, но тема си неполностью раскрыта. Не совсем понятна цель. Значит ли это, что кто-то будет переписывать статьи с «победителей»? Касается, в первую очередь, исторический статей, биографий политиков. Ведь точки зрения могут быть разными. Пример под спойлером. Не холливара ради, обсуждать личность примера не собираюсь:
                  Заголовок спойлера
                  Оцінки Степана Бандери вкрай полярні. Він користується певною популярністю, головним чином, серед жителів Західної України (окрім «мельниківців») — після розпаду СРСР для багатьох західних українців його ім'я стало символом боротьби за незалежність України. У свою чергу, серед жителів Польщі та Росії є такі, що ставляться до нього негативно, звинувачуючи у фашизмі, тероризмі, радикальному націоналізмі, що зокрема виявлялось у фізичній ліквідації лідерів відмінних від ОУН(б) українських націоналістичних течій, і колабораціонізмі[9][10]. Поняття «бандерівці», похідне від його прізвища, поступово стало загальним і застосовним до всіх українських націоналістів, незалежно від їхнього ставлення до Бандери[11][12][13].


                  Точки зрения на личность Степана Бандеры крайне полярны. В настоящее время Бандеру и его последователей почитают главным образом на Западной Украине, где после распада СССР его имя стало символом борьбы за независимость украинского государства. Политические идеи и деятельность Бандеры, Шухевича и других деятелей украинского националистического подполья 1930-х — 1950-х в наши дни стали предметом подражания для современных украинских националистических организаций, которые используют их как основу для воспитания своих сторонников. В свою очередь, жители Юго-Восточной Украины, а также Польши, Белоруссии и России относятся к нему в основном негативно , обвиняя в фашизме, терроризме, радикальном национализме и коллаборационизме[7][8]. Понятие «бандеровцы», производное от его фамилии, в СССР постепенно стало нарицательным и применимым ко всем украинским националистам, независимо от их отношения к Бандере[9][10][3].

                  Bandera remains a highly controversial figure today, both in Ukraine and internationally, with some hailing him as a liberator who fought both the Soviets and the Nazis while trying to establish an independent Ukraine, while others consider him to be a Nazi collaborationist[16] and a war criminal[17] who was, together with his followers, largerly responsible for the Volhynian genocide[18] and partially for the Holocaust in Ukraine.[19][20][21][22]


                  Так вот, как выбирать победителя? И что будет дальше с победителем?

                  Ну и таких тем может быть масса. Ещё одна, актуальная:

                  В общем, дьявол в мелочах. Учавствовать не буду в виду не очень хорошего польского. Но очень прошу продумать политико-исторические аспекты.
                    0
                    Правильно подмечено — есть так называемые спорные темы, которые усложняют процесс сравнения качества информации. Тут мы можем наблюдать за появлением «локальной правды», и уже пользователи конкретной языковой версии решают какую версию этой правды оставить в статьях.

                    Если рассматривать общее количество материала представленного в Википедии, таких спорных моментов не много, во всяком случае они практически не выступают в карточках (таблицах), которые являются предметом научных исследованиях и данной игры ;)
                    +1
                    Когда игру пишет ученый…
                    За проделанную работу в игре «зарабатывается» опыт, который также ведет в повышению уровня
                    Звучит двусмысленно: либо есть еще один способ получать опыт, либо удалите «также» (ну и опечатка «в»).
                    Play for quality (слоган)
                    Идея конечно же хорошая, только не понял, а где «игра»? У вас у самих мотивация играть в это есть? Уровень — зачем? Можно геймифицировать рабочий процесс, но это не сделают работу игрой. Сотрудникам будет веселее, но вряд ли обычные игроки захотят работать.
                    Главные особенности
                    Серьезно? Особенности в сравнении с чем? Где научный подход? Почему не проведено исследование по существующим играм в жанре?

                    Не мой жанр, но вы хотите чтобы пользователь выбирал одну из карточек. Можно оценивать насколько его выбор правильный, сравнивая с другими «игроками», добавляя «проверочные» задания — это когда вы знаете результат и проверяете насколько игрок хорош (аудит), может он тупо жмет 1 чтобы набрать уровень повыше и побыстрее?

                    Уровень должен что-то давать. Привилегию? Доступ к чему-то? Что вы готовы предложить из того что у вас есть/не жалко?

                    Можно ввести темы, а не давать карточки случайно. По странам/регинам. Только после прохождения темы (10 заданий?) переходить к следующей. Желательно с «босом» (аудитом).

                    Один из лучших примеров геймификации — это StackOverflow. Там очень многие с удовольствием «работают» (разгребают очереди, редактируют и т.д.), поначалу за балы, которые нужны, чтобы «оплачивать» помощь других, а потом — даже не знаю зачем, из альтруистических соображений? Вот если бы вы вашу поделку (игру) прикрутили к чему-то стоящему, то я бы может и поиграл. Хотя нет, польского/болгарского я не знаю.
                    Good luck. Have fun.
                    Мде…

                    Претензии к реализации тоже есть (по видео). Зачем игроку тягать карточки по экрану? Почему они сразу не расположены правильно? Вы думаете что тягать карточки это увлекательный игровой процесс? Для 3х летнего ребенка — возможно.
                      0
                      Большое спасибо за расширенный комментарий.

                      Если кратко, то некоторые из озвученных идей запланированы. Проблема заключается в коротком промежутке времени, в котором предварительные исследования в этом направлении должны быть проведены. Расширенный список языков, уменьшение минимального их количества для регистрации, выбор уровня сложности (easy, medium, hard, hardcore), тематическая групировка карточек, более «умный» алгоритм проверки результатов, который будет влиять на «развитие» персонажа (его опыт, уровень) и другие полезности запланированы в будующих релизах.

                      Однако, в этой версии игра уже может многое дать для исследований. Дело в том, что мы планируем объединить данные полученные от игроков и более 100 различных индикаторов, которые были полученны отдельно (из других источников), для построения моделей качества. И тут как раз будет использован «научный подход» ;)

                      Как правильно было отмечено — специалистов по геймификации этого сервиса не было ;) Этому еще придётся научиться. Буду рад ссылкам на полезные материалы в этом направлении.

                      Вообще говоря, проект некоммерческий. Любая помощь привествуется)
                      0
                      Игра для поляков старшего возраста часто посещающих Украину?
                        0
                        Результаты игры могут помочь в ответе на этот вопрос))
                        0
                        Что касается необязательности белорусского — это связано с величиной белорусского раздела Википедии. В настоящее время там ок. 150 тыс. статей. Для сравнения, украинская Вики уже содержит более 800 тыс., русская — почти 1.5 млн. (источник).


                        Не хватает для полноты картины цифр польского и английского (кстати 1.2 млн. и 5.6 млн. соответственно).

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое