lewoniewski Dec 29 2020 at 19:40

Исследование качества информации и достоверности источников в Википедии

12 min

13K

Data Mining*Big Data*Open data*Machine learning*Popular science

Comments 21

dartraiden Dec 29 2020 at 20:27

Возможно для кого-то это будет удивительно и даже возмутительно, но в Википедии информация не должна быть правдивой, важно, чтобы она была подтверждена достоверными источниками.

Рядовой читатель, увы, вообще плохо представляет себе, чем является Википедия. Не ошибусь, если скажу, что большинство читателей полагают, что в Википедии непременно обязаны быть сведения обо всём на свете (а это вовсе не так).

lewoniewski Dec 29 2020 at 21:06

Вопрос в том, кто «обязан» писать новую информацию или вносить изменения? Это ведь дело добровольное. За это «по умолчанию» никто не платит ;)
Хотя было бы неплохо, если бы каждый участвовал в улучшении этой энциклопедии.

dartraiden Dec 29 2020 at 21:06

Никто ничего не обязан делать, да. Но если уж взялся делать, то обязан делать по правилам.

Хотя было бы неплохо, если бы каждый участвовал в улучшении этой энциклопедии.

Я порой поправляю явные огрехи, когда прохожу мимо (опечатки, машинный перевод, такое всё).

tyomitch Dec 30 2020 at 09:00

Охват — не такая большая проблема, как ссылки на фиктивные источники. Я видел даже ссылку на буквально пустую страницу, которая, по данным web.archive.org, была пустой всегда.

UFO landed and left these words here

Javian Dec 30 2020 at 08:27

Личное впечатление, что RU-wiki лет 5-10 начался период застоя. Видимо в какой-то момент активные авторы потеряли интерес и ушли. Часто читаю статью в En-wiki т.к. она там написана шире и глубже.

lewoniewski Jan 3 2021 at 18:45

Согласен с тем, что англоязычная версия Википедии часто содержит больше информации. Но всё-же некоторые темы лучше описаны в отдельных языковых разделах. Поэтому мы работаем над улучшением методов по автоматическому обогащению Википедии, чтобы каждый мог на своём родном языке узнать много нового и интересного в этой открытой энциклопедии ;)

Javian Jan 3 2021 at 21:31

Только что смотрел статью по отечественной персоне, которая не интересна англоязычной вики. В статье информация по состоянию на 2018 год. И такое постоянно встречается в виде «ожидается» то, что произошло или в указанные сроки не произошло. Как какой-то рубикон, после которого авторы ушли. Лично я подозреваю, что дело в токсичности т.к. случайно наблюдал некорректное поведение пользователя, наделенного большими правами.
P.S. Хотел привести его в пример и зайдя на его страницу сейчас вижу: «Этот участник заявил об уходе из проекта». Собственно для меня это подтверждение, что проблемы RU.WIKI в людях. Люди с амбициями отбивают желание у новичков участвовать в проекте. а потом им и самим надоедает.

tyomitch Dec 30 2020 at 08:56

Искал под катом результаты исследования — количественные оценки качества информации и достоверности источников в различных языковых разделах. Увидел массу рассуждений о проделанной работе, но её результатов так и не увидел.

lewoniewski Jan 2 2021 at 16:08

Более подробные результаты исследований доступны в дополнительных материалах — не просто в одной статье на Хабре описать всю проделанную работу ;)

Доступны также общедоступные базы. Например, оценки для более 40 млн статей Википедии можно найти на портале ВикиРанк. Если говорить про анализ источников — оценки для более 1 млн источников доступны на сайте BestRef.

SGTim Dec 30 2020 at 10:19

Уважаемый, Владимир!

А как Вы решаете вопрос «достоверности» (а так же «актуальности», и тем более «объективности») если в разных «достаточно достоверных» источниках просто содержится разная и иногда прямо противоречащая друг другу информация?

И речь даже не о фэйк ньюс (хотя этой информации часто значительно больше, чем «объективной» информации, причем очень часто именно в «достаточно достоверных» источниках), а о ситуации когда для разных общностей людей (страны, народы и народности, политические партии и движения, различные профессиональные сообщества, «научные» и «антинаучные» группы «специалистов» и т.д. и т.п.) существуют прямо противоположные взгляды (и соответственно «объективная» с их точки зрения информация) по одному и тому же вопросу?

Когда дело не в ошибочном переводе на другой язык, а в том, что для большинства носителей другого языка сами факты «объективно» другие? Ну так устроен наш мир, что очень многое в нем — это конфликт интересов и конкуренция между разными людьми и общностями людей. А с развитием инструментов информационных технологий это превратилось в реальные информационные войны.

Извините за множественные кавычки, но в текущей ситуации сами понятия «актуальности», «достоверности» и «объективности» давно потеряли свой изначальный смысл.
И если бы речь шла только о вещах типа «2 х 2 = 4» или документально подтвержденных датах, параметрах объектов и т.п.
Но к сожалению огромная часть информации в Википедии это именно личное мнение автора текста (его субъективная оценка, разделяемое автором общепринятое мнение или даже заблуждение и т.д. и т.п.), точнее автора текста того источника информации, содержание которого (или выдержка из которого) перенесено в статью Википедии.

А в этом случае огромные затраченные Вами усилия просто приведут не к «достоверному» результату, а к «принятому большинством» (или еще хуже к навязанному манитуляторами, владеющими большинством «достоверных источников»).
Но в науке как известно «голосованием ничего решить нельзя».

Если тогда вообще смысл в Вашей деятельности?
Что Вы думаете по этому поводу?
Или все о чем я написал не входит в область деятельности разрабатываемых Вами алгоритмов? Но тогда как отличать одно от другого?

tyomitch Dec 30 2020 at 13:24

Когда дело не в ошибочном переводе на другой язык, а в том, что для большинства носителей другого языка сами факты «объективно» другие?

Добавлю, что и при переводе на другой язык возникают все те же факторы, которые вы перечислили, и разные группы людей могут считать один и тот же перевод верным или ошибочным.
Избитый пример: означает ли пророчество «Дева во чреве приимет и родит Сына» (Ис 7:14) что мать Мессии — девственница? Менее известный: Суд 15:19 в церковнославянском переводе (с канонического греческого) гласит «И разверзе Богъ язву на челюсти, и изыде изъ нея вода,» в синодальном (и в каноническом латинском) — «И разверз Бог ямину в Лехе, и потекла из нее вода.» Откуда текла вода — из язвы на челюсти, или из ямы в холме?

lewoniewski Dec 30 2020 at 20:08

Большое спасибо за интересный и подробный комментарий. Начну с цитаты из Вашего комментария, который частично отвечает на поставленные вопросы:

Ну так устроен наш мир, что очень многое в нем — это конфликт интересов и конкуренция между разными людьми и общностями людей. А с развитием инструментов информационных технологий это превратилось в реальные информационные войны.

Само понятие «качества информации» (вместе с критерием «достоверности») является субъективным. Это как выбирать обувь или одежду в магазине на свой вкус — у каждого могут быть свои критерия качества (цвет, материал, производитель и т.д.). Аналогично, одна и также информация будет иметь разное качество для отдельных людей со своими «информационными потребностями», образованием и предпочтениями. Учитывая эту субъективность, автоматизация процесса оценки качества иформации не является тривиальной задачей ;)

Согласен с тем, что существуют определённые темы, в которых люди долго могут спорить и приводить свои «правильные» аргументы. Однако основная часть информации не вызывает серъезных споров. Например: дата и место рождения/смерти человека, рентабельность конкретного предприятия/фирмы (прибыль, рыночная стоимость, количество сотрудников), характеристики определённого продукта (авто, софт, фильмы, видеоигры и т.п.), курсы валют или акций, различные статистические данные (население определённого города, страны, площадь территорий, учебные заведения с количеством студентов), картографические данные и многое другое. Конечно, и для этих данных могут возникнуть «спорные», но их соотношение с общей «массой» фактов — незначительная. И с ними можно и нужно отдельно работать.

Технологии развиваются и возможности оценки качества информации тоже. Рассмотрим пример поисковых системы в Интернете. Ещё относительно недавно они использовали алгоритмы ранжирования документов основанные на частотности слов в этих докуменатх (например TF-IDF). Но позже необходимо было учитывать ссылки между документами (в том числе для подсчета значения PageRank), реомендации/сигналы из социальных сетей, анализ поведения пользователей в результатах поиска и т.д. Несмотря на усилия поисковых систем в сторону усложнения алгоритмов ранжирования, люди со временем в состоянии «разгадать основные зависимости» и манипулировать в какой-то степени результатом поиска. И поэтому алгоритмы меняются, совершенствуются.

Другой пример развития технологий — наукометрия или библиометрия. Раньше для оценки важности (влияния) научных публикаци и их автром применялос небольшое количество параметров: количество цитирований, индекс Хирша и др. Теперь у нас есть гораздо больше параметров, которые можно брать во внимание (в том числе рекомендации из новостных порталов, блогов, соцсетей, отдельных библиографических баз данных и др.). Примеры таких инициатив: Altmetric, PLUMX.

Если говорить в общем, то вокруг нас ещё много чего не исследовано и не всё человек в состоянии объяснить (пока что). Отсюда стремление познать закономерности. И я уверен, что мы на правильном пути)) Другое дело, что работы в этой области «непочатый край», но ведь «дорогу осилит идущий»))

SGTim Dec 30 2020 at 23:24

Владимир, спасибо за ответ — он понятен и в этом я с Вами согласен.

Но главный вопрос в моем комментарии был другой.
Конкретизирую:
Каким способом (методом, алгоритмом, «вручную» или еще как-то...) Вы предполагаете разделять

… основную часть информации, которая не вызывает серьезных споров ...

от

… тем, в которых люди долго могут спорить и приводить свои «правильные» аргументы ...

Или иначе — Ваши предположения: кто и как будет этим заниматься (если Вы считаете, что это не вопрос Ваших исследований)?

Очевидно, что любой вариант с участием человека делает этот процесс бессмысленным (из-за объемов уже имеющейся информации, да и потому, что авторы текстов и так сейчас могут это делать).

А любая автоматизация приводит к следующему уровню проблемы «объективности» и «достоверности» («качества» если хотите :-) ) теперь уже алгоритма, который будет разделять эту информацию на эти 2 казалось бы простых класса.
В этом случае либо кто-то (например, «владельцы» ресурса Википедия) присвоит себе право определять, что есть «факты», а что есть «мнения» (понятно, что речь не о конкретной информации, а об методике определения), и соответственно реализует это как алгоритм обновления данных в различных языковых разделах Википедии, например, в рамках указанного Вами проекта GlobalFactSync (GFS), чтобы

синхронизировать фактические данные во всех языковых разделах Википедии и Викиданных.

Либо нужна независимая от мнений людей технология выделения понятий и их деления на эти 2 класса. Технологии конечно развиваются, и объемы Википедии более чем достаточны, например, для обучения любых самых навороченных нейросетей… вот только для обучения кто-то должен разметить наборы данных, то есть определять, что есть «факты», а что есть «мнения»… Кажется я это уже только что писал — то есть реально вариант все же один.

Ну и почему бы и нет? Прекрасно!!! Ведь скорее всего формулировать алгоритм разделения будут вполне разумные люди и 99,9...% ошибок будут исправлены правильно. При этом большинство пользователей вообще не будут знать об этих исправлениях, а просто будут получать эту информацию.

Но есть одна опасность. Никто не обратит внимание на объемы исправленной таким методом информации, а вот одна единственная исправленная этим алгоритмом не в ту сторону «ошибка», являющаяся критической для подавляющего большинства пользователей определенного языкового раздела Википедии может быть разнесена и раздута современными информационными технологиями и СМИ так, что поставит вопрос о «достоверности» всей информации, содержащейся в Википедии.
А с учетом объемов информации этих ошибок будет много. И примеров можно привести массу. Та же география. Вроде все цифры объективные. Но стоит вспомнить сколько непризнанных государств и спорных территорий, как огромное количество цифр становятся спорными!!!

Может лучше оставить все как есть?

PS
В среде военных авиационных техников есть такая поговорка: «Технарь не трогай самолет и он тебя не подведет».
Может быть Википедия так популярна, именно потому, что существующая сегодня методика работы с текстами разумно достаточна и всех устраивает. А попытки автоматического ее «улучшения» могут сделать только хуже?

lewoniewski Jan 3 2021 at 18:24

Благодарю за дополнительный содержательный комментарий.

Отвечая на главный вопрос, одним из способов нахождения такой информации — сравнивать факты представленные в различных языковые версиях статьи (на одну и туже тему — определённое событие, персона, организация и т.д.). При определенном разнообразии вариантов среди этих языковых версии для определённого факта можно определить какие из них с большей вероятностью являются «спорными». Также можно анализировать дисскусию (отдельная страница на Википедии «Обсуждение:...» зарезервированная для каждой статьи), где может быть отражена информация о спорных фактах.

Тут может появится отдельная проблема/задача — как получить все факты из текста — это уже область NLP (oбработка естественного языка). И там тоже наблюдается «прогресс».

Теперь насчёт «присвоения» права на оценку качества и достоверность. Википедия отличается от традиционных энциклопедий отсутствием обязательного процесса рецензирования (и это не мешает ей, Википедии, быть гораздо популярнее). Т.е. сообщество конкретной языковой версии Википедии праве решать, что может остаться в этой энциклопедии, а что нет. И причины изменения/удаления определённых фактов могут быть разные, в том числе отсутсвие достоверных источников. Если теоретически, кто-то захочет «присвоить» себе право решать, что достоверно, а что нет и сможет это право реализовывать на практике — тогда мы не можем говорить о «свободной» энциклопедии, в которой каждое мнение (особенно аргументированное) должно быть учтено в принятии решения (методом консенсуса).

Методы, которые мы предлагаем, могут быть применены на разных этапах улучшения качества Википедии. На первом этапе, такие алгоритмы могут советовать пользователям источники в зависимости от редактируемой информации. Чуть дальше, в ситуации, когда пользователь решит проигнорировать этот «совет», система может для читателей/редакторов обозначить это предложение/факт как сомнительное (цветом например). Позже, на основании обратной связи, можно проанализировать, в каких ситуациях алгоритм даёт не совсем правильные советы — и дальше усовершенствовать модели (например добавляя другие параметры). То есть пользователи, как Вы уже отметили, могут помогать совершенствовать этот алгоритм, как теперь помогают обогащать Википедию новой информацией. Таким образом, мы стремимся улучшить «инструмент» работы с энциклопедией, автоматизируя всё большее количество действий пользователей, чтобы они могли посвятить своё время на решение других важных проблем связанных с качеством статей (а их, проблем, достаточно).

Обычно читателю необходима одна единственная «версия правды», которая будет в наивысшей мере отражать реальное положение дел. Однако технологии позволяют оставить «место» и для других версий этой же «правды», с которыми можно ознакомится, например, в порядке достоверности/значимости/популярности.

Поговорка авиационных техников мне понравилась, однако тут, как мне кажется, не всё учтено (во всяком случае для меня, не специалиста в области авиации). Возможно надо учесть кому/чему можно/нужно «трогать» этот самолёт и в каких условиях)) Например, как отремонтировать/улучшить самолёт не «дотрагиваясь» до него?))

Насчёт того, что «существующая сегодня методика работы с текстами разумно достаточна и всех устраивает» — вынужден не согласиться. У нас может быть разное мнение насчёт того, стоит ли развивать/улучшать существующие технологии. Однако они и без нас будут развиваться)). Ведь когда-то многих «устраивало» программирование на перфокартах/перфолентах — сейчас это, мягко сказать, неудобно (или просто неэффективно). Да и вообще комьютеры, которые значительно изменили наш образ жизни, появились относительно недавно, хотя люди и без них ведь как-то жили)). «Не за горами» нас ожидают также возможные глобальные изменения этой энциклопедии — "Абстрактная Википедия", которая может поменять способ доступа и редактирования информации.

SGTim Jan 3 2021 at 18:48

Владимир, большое спасибо за Вашу публикацию и подробные ответы.

Из последнего (про методы и этапы их применения) стал более понятен Ваш подход не в части обработки информации, а в части применения результатов Вашей деятельности. Если получится последовательно реализовать эти дополнения к работе с текстами Википедии это однозначно улучшит ее содержание. При этом сохранив свободу размещения в отдельных языковых сегментах различных точек зрения (в том числе, как Вы указали, и возможность одновременного размещения альтернативных вариантов информации/точек зрения подтверждая возможность их существования у других общностей людей).

Еще раз спасибо за Ваши труды и успехов в Ваших исследованиях.

Germanjon Dec 30 2020 at 11:31

Весьма большой вопрос: а должна ли быть информация в Википедии правдива? И встречный вопрос: как гарантированно доказать, что она правдива? За исключением очевидных ситуаций и новостей, дающих инфоповоды — практически никак. Или верить на слово людям.

Вот примерный текст по речке, текущей в горах Узбекистана:

«На правом берегу строится ГЭС… В 20 километрах от русла есть озеро...

Источник = книга 1988 года. ГЭС с распадом Союза перестали строить, озеро снесено селевым потоком в 1992 году. Авторитетного источника нет (сообщения вида „я там был полгода назад“ и даже фотографии с геометками != Авторитетному источнику). Если просто написать данную информацию — получается Оригинальное исследование.

И остаётся открытым вопрос: что важнее для википедии? Актуальность данных или их проверяемость?

D_R Jan 2 2021 at 19:17

Это прямо сказано в правилах. Проверяемость.

Лучше устаревшая информация (или даже вообще никакой), чем непроверяемая. Непроверяемой и без Википедии — полный интернет.

Germanjon Jan 4 2021 at 11:28

Всё верно, Википедия в этом плане явно указала приоритеты.
В принципе, можно было прочитать правила и не проводить исследования, ибо качество информации предсказуемо: для «горячих и актуальных событий» — высокое (например, о смерти политических лидеров или знаменитостей), для «не центровых» — низкое

UFO landed and left these words here

lewoniewski Jan 2 2021 at 16:09

Поэтому люди с помощью технологий стремятся автоматизировать этот процесс ;)