Как стать автором
Обновить
10
0
Владимир Левоневский @lewoniewski

Доцент Кафедры Информационных Систем

Отправить сообщение
Согласен с тем, что англоязычная версия Википедии часто содержит больше информации. Но всё-же некоторые темы лучше описаны в отдельных языковых разделах. Поэтому мы работаем над улучшением методов по автоматическому обогащению Википедии, чтобы каждый мог на своём родном языке узнать много нового и интересного в этой открытой энциклопедии ;)
Благодарю за дополнительный содержательный комментарий.

Отвечая на главный вопрос, одним из способов нахождения такой информации — сравнивать факты представленные в различных языковые версиях статьи (на одну и туже тему — определённое событие, персона, организация и т.д.). При определенном разнообразии вариантов среди этих языковых версии для определённого факта можно определить какие из них с большей вероятностью являются «спорными». Также можно анализировать дисскусию (отдельная страница на Википедии «Обсуждение:...» зарезервированная для каждой статьи), где может быть отражена информация о спорных фактах.

Тут может появится отдельная проблема/задача — как получить все факты из текста — это уже область NLP (oбработка естественного языка). И там тоже наблюдается «прогресс».

Теперь насчёт «присвоения» права на оценку качества и достоверность. Википедия отличается от традиционных энциклопедий отсутствием обязательного процесса рецензирования (и это не мешает ей, Википедии, быть гораздо популярнее). Т.е. сообщество конкретной языковой версии Википедии праве решать, что может остаться в этой энциклопедии, а что нет. И причины изменения/удаления определённых фактов могут быть разные, в том числе отсутсвие достоверных источников. Если теоретически, кто-то захочет «присвоить» себе право решать, что достоверно, а что нет и сможет это право реализовывать на практике — тогда мы не можем говорить о «свободной» энциклопедии, в которой каждое мнение (особенно аргументированное) должно быть учтено в принятии решения (методом консенсуса).

Методы, которые мы предлагаем, могут быть применены на разных этапах улучшения качества Википедии. На первом этапе, такие алгоритмы могут советовать пользователям источники в зависимости от редактируемой информации. Чуть дальше, в ситуации, когда пользователь решит проигнорировать этот «совет», система может для читателей/редакторов обозначить это предложение/факт как сомнительное (цветом например). Позже, на основании обратной связи, можно проанализировать, в каких ситуациях алгоритм даёт не совсем правильные советы — и дальше усовершенствовать модели (например добавляя другие параметры). То есть пользователи, как Вы уже отметили, могут помогать совершенствовать этот алгоритм, как теперь помогают обогащать Википедию новой информацией. Таким образом, мы стремимся улучшить «инструмент» работы с энциклопедией, автоматизируя всё большее количество действий пользователей, чтобы они могли посвятить своё время на решение других важных проблем связанных с качеством статей (а их, проблем, достаточно).

Обычно читателю необходима одна единственная «версия правды», которая будет в наивысшей мере отражать реальное положение дел. Однако технологии позволяют оставить «место» и для других версий этой же «правды», с которыми можно ознакомится, например, в порядке достоверности/значимости/популярности.

Поговорка авиационных техников мне понравилась, однако тут, как мне кажется, не всё учтено (во всяком случае для меня, не специалиста в области авиации). Возможно надо учесть кому/чему можно/нужно «трогать» этот самолёт и в каких условиях)) Например, как отремонтировать/улучшить самолёт не «дотрагиваясь» до него?))

Насчёт того, что «существующая сегодня методика работы с текстами разумно достаточна и всех устраивает» — вынужден не согласиться. У нас может быть разное мнение насчёт того, стоит ли развивать/улучшать существующие технологии. Однако они и без нас будут развиваться)). Ведь когда-то многих «устраивало» программирование на перфокартах/перфолентах — сейчас это, мягко сказать, неудобно (или просто неэффективно). Да и вообще комьютеры, которые значительно изменили наш образ жизни, появились относительно недавно, хотя люди и без них ведь как-то жили)). «Не за горами» нас ожидают также возможные глобальные изменения этой энциклопедии — "Абстрактная Википедия", которая может поменять способ доступа и редактирования информации.
Поэтому люди с помощью технологий стремятся автоматизировать этот процесс ;)
Более подробные результаты исследований доступны в дополнительных материалах — не просто в одной статье на Хабре описать всю проделанную работу ;)

Доступны также общедоступные базы. Например, оценки для более 40 млн статей Википедии можно найти на портале ВикиРанк. Если говорить про анализ источников — оценки для более 1 млн источников доступны на сайте BestRef.
Большое спасибо за интересный и подробный комментарий. Начну с цитаты из Вашего комментария, который частично отвечает на поставленные вопросы:

Ну так устроен наш мир, что очень многое в нем — это конфликт интересов и конкуренция между разными людьми и общностями людей. А с развитием инструментов информационных технологий это превратилось в реальные информационные войны.


Само понятие «качества информации» (вместе с критерием «достоверности») является субъективным. Это как выбирать обувь или одежду в магазине на свой вкус — у каждого могут быть свои критерия качества (цвет, материал, производитель и т.д.). Аналогично, одна и также информация будет иметь разное качество для отдельных людей со своими «информационными потребностями», образованием и предпочтениями. Учитывая эту субъективность, автоматизация процесса оценки качества иформации не является тривиальной задачей ;)

Согласен с тем, что существуют определённые темы, в которых люди долго могут спорить и приводить свои «правильные» аргументы. Однако основная часть информации не вызывает серъезных споров. Например: дата и место рождения/смерти человека, рентабельность конкретного предприятия/фирмы (прибыль, рыночная стоимость, количество сотрудников), характеристики определённого продукта (авто, софт, фильмы, видеоигры и т.п.), курсы валют или акций, различные статистические данные (население определённого города, страны, площадь территорий, учебные заведения с количеством студентов), картографические данные и многое другое. Конечно, и для этих данных могут возникнуть «спорные», но их соотношение с общей «массой» фактов — незначительная. И с ними можно и нужно отдельно работать.

Технологии развиваются и возможности оценки качества информации тоже. Рассмотрим пример поисковых системы в Интернете. Ещё относительно недавно они использовали алгоритмы ранжирования документов основанные на частотности слов в этих докуменатх (например TF-IDF). Но позже необходимо было учитывать ссылки между документами (в том числе для подсчета значения PageRank), реомендации/сигналы из социальных сетей, анализ поведения пользователей в результатах поиска и т.д. Несмотря на усилия поисковых систем в сторону усложнения алгоритмов ранжирования, люди со временем в состоянии «разгадать основные зависимости» и манипулировать в какой-то степени результатом поиска. И поэтому алгоритмы меняются, совершенствуются.

Другой пример развития технологий — наукометрия или библиометрия. Раньше для оценки важности (влияния) научных публикаци и их автром применялос небольшое количество параметров: количество цитирований, индекс Хирша и др. Теперь у нас есть гораздо больше параметров, которые можно брать во внимание (в том числе рекомендации из новостных порталов, блогов, соцсетей, отдельных библиографических баз данных и др.). Примеры таких инициатив: Altmetric, PLUMX.

Если говорить в общем, то вокруг нас ещё много чего не исследовано и не всё человек в состоянии объяснить (пока что). Отсюда стремление познать закономерности. И я уверен, что мы на правильном пути)) Другое дело, что работы в этой области «непочатый край», но ведь «дорогу осилит идущий»))
Вопрос в том, кто «обязан» писать новую информацию или вносить изменения? Это ведь дело добровольное. За это «по умолчанию» никто не платит ;)
Хотя было бы неплохо, если бы каждый участвовал в улучшении этой энциклопедии.
Результаты игры могут помочь в ответе на этот вопрос))
Большое спасибо за расширенный комментарий.

Если кратко, то некоторые из озвученных идей запланированы. Проблема заключается в коротком промежутке времени, в котором предварительные исследования в этом направлении должны быть проведены. Расширенный список языков, уменьшение минимального их количества для регистрации, выбор уровня сложности (easy, medium, hard, hardcore), тематическая групировка карточек, более «умный» алгоритм проверки результатов, который будет влиять на «развитие» персонажа (его опыт, уровень) и другие полезности запланированы в будующих релизах.

Однако, в этой версии игра уже может многое дать для исследований. Дело в том, что мы планируем объединить данные полученные от игроков и более 100 различных индикаторов, которые были полученны отдельно (из других источников), для построения моделей качества. И тут как раз будет использован «научный подход» ;)

Как правильно было отмечено — специалистов по геймификации этого сервиса не было ;) Этому еще придётся научиться. Буду рад ссылкам на полезные материалы в этом направлении.

Вообще говоря, проект некоммерческий. Любая помощь привествуется)
Правильно подмечено — есть так называемые спорные темы, которые усложняют процесс сравнения качества информации. Тут мы можем наблюдать за появлением «локальной правды», и уже пользователи конкретной языковой версии решают какую версию этой правды оставить в статьях.

Если рассматривать общее количество материала представленного в Википедии, таких спорных моментов не много, во всяком случае они практически не выступают в карточках (таблицах), которые являются предметом научных исследованиях и данной игры ;)
Очень даже похожи, однако этих два языковых раздела теоретически являются независимыми друг от друга (как и другие языки между собой в Википедии). Т.е. темы, которые более качественно раскрыты в одном языке не переносятся автоматически в другую — должно быть заинтересованные лица, которые будут эту работу выполнять ;)
Отличная идея, благодарю. Думаю, что будет исправлено в ближайшее время)
Согласен, Википедия богата на языки. Белорусский кстати там представлен в двух разделах — есть еще тарашкевіца. После получения результатов по игре и проведения экспериментов — можем и эти языковые разделы обогатить ;)
Спасибо, нашли ошибку. Исправлено, аккаунт активирован)
Верно, в этом и заключается постепенное развитие игры). Добавил немного информации о том, почему именно 5 языков исследуются.
Планируется, что будет уменьшены требования к знанию языков, а также будет расширен список для выбора. В настоящее время, для проведения предварительных научных исследований по уже готовым алгоритмам, необходимы игроки-эксперты со знанием хотябы 4 указанных.
Правильное замечание, спасибо. Добавлено немного материала в статью ;)

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность