Сегодня на конференции SemTechBiz в Сан-Франциско было объявлено о том, что проект Wikidata получил от Яндекса грант в размере 150 тысяч евро.
Wikidata — проект Фонда Викимедиа, совместно редактируемая база знаний для централизованного хранения структурированных данных.
Специально для нашего техноблога на Хабре мы расспросили Denny Vrandečić, одного из основателей этого проекта, о том, что такое Wikidata в подробностях, чем отличается от других похожих проектов и какую пользу может принести инфраструктуре будущего интернета и всем его пользователям.
Что такое Wikidata? Какие у этого проекта цели? Почему именно Wikidata стал первым проектом Фонда Викимедиа с 2006 года?
Wikidata — это новый проект Фонда Викимедиа. Главная задача последнего — предоставить каждому человеку на планете свободный доступ ко всем возможным знаниям. Самый известный наш проект — Википедия, открытая энциклопедия, доступная более чем на 200 языках.
Версии на некоторых из этих языков (например, на русском или английском) поддерживают очень активные сообщества. Но для многих других невозможно обеспечить такой же уровень полноты и актуальности. Также, оказывается, что энциклопедию на тех языках, для которых не хватает редакторов, легче портить: не хватает тех, кто бы правил все и к тому же не давал информации устаревать.
Wikidata создана, чтобы частично это исправить. Мы делаем открытую многоязычную базу структурированных данных с информацией, которую можно использовать в Википедии и других проектах — в том числе и внешних по отношению к Викимедиа. Наши данные можно использовать свободно — лицензия разрешает почти любое использование. Каждый сможет вносить изменения в данные проекта, которые уже сейчас доступны на более чем 300 языках.
В общем, Викимедиа запустила этот проект, чтобы улучшить качество языковых версий Википедии и позволить редакторам более эффективно тратить своё время.
Чем Wikidata отличается от других похожих проектов — Freebase, DBpedia? Зачем делать ещё одну машиночитаемую базу структурированной информации?
DBpedia занимается тем, что собирает данные из Википедий, т.е. делает практически обратное тому, чем занимается Wikidata. Кроме того, отсюда следует, что в DBpedia никакие данные нельзя редактировать напрямую.
Freebase — проект, очень похожий на Wikidata, и я допускаю возможное взаимодействие в будущем. Начиная от проверки консистентности наших данных и вплоть до обмена ими в рамках, которые допускают наши лицензии. Посмотрим, что из этого получится. Основное отличие Freebase от Wikidata в том, что для последней гораздо важнее многоязычность и наличие источников — причём на самом деле и то, и другое есть в Freebase, но разобрать это в их интерфейсе не очень просто. Второе очевидное отличие — Freebase делает Google, а Wikidata — некоммерческая организация. Это, как мы надеемся, немного снижает риски использования данных из неё.
Планируется ли интеграция с уже существующими хранилищами данных?
Мы уже интегрируемся со всё большим количеством внешних баз, в основном через связи идентификаторов. Сотни тысяч единиц информации из Wikidata уже связаны с VIAF, GND, MusicBrainz, IMDB и многими другими каталогами и базами данных. Верим, что это может оказаться одним из самых больших вкладов, которые Wikidata внесёт в будущее инфраструктуры Веба, в создание сети знаний и связь сущностей в интернете.
Какое Wikidata имеет отношение к Википедии и как она взаимодействует с её языковыми разделами?
Wikidata предоставляет данные, которые можно использовать в региональных Википедиях. Нашим первым шагом было организовать доступ к ссылкам на версии статьи на разных языках, которые раньше хранились децентрализовано — в каждой статье отдельно. Теперь в Wikidata есть единое центральное место для таких ссылок, и это позволило убрать много бессмысленной повторяющейся информации из языковых версий Википедии.
Второй шаг (но тоже всё ещё начальный) — предоставить Википедии другую форму структурированных данных. Например, идентификаторы от IMDB, которые в некоторых из языковых версий Википедии уже берутся и отображаются из Wikidata. Мы надеемся, что такая практика будет понемногу нарастать и становиться всё более полезной для Википедии, хотя этот процесс не может быть быстрым — сначала Wikidata должна заслужить доверие википедистов. А они, в свою очередь, должны научиться правильно использовать новые возможности. Сообщества широко пересекаются, и сильно поможет, но то, как именно они смогут начать пользоваться Wikidata, — будет самым важным и интересным для нас вопросом в будущем.
Кого вы видите пользователям Wikidata? Есть ли уже примеры успеха?
Сейчас у нас на Wikidata более 8000 активных редакторов. Это значит, что по количеству редакторов Wikidata была бы в десятке самых популярных Википедий. И поскольку именно Википедия — наша главная область применения, мы очень рады, что уже настолько полезны. Так что это и есть наш главный пример и показатель успеха.
Есть и ещё несколько отличных примеров использования Wikidata. Например, Wiri — система, которая может принимать вопросы на естественном языке (в данном случае — английском) и отвечать на них, Geneology Visualizer и альтернативный интерфейс для браузинга Википедии — «Tree of life». В некоторых исследовательских проектах уже используют данные Wikidata. Например, в гендерном анализе Википедии и для изучения полноты разных языков. Такие вещи с Wikidata становится исследовать гораздо проще.
Думаю, это очень неплохо для проекта, который появился всего несколько месяцев назад. И по мере появления новых возможностей — типов данных для времени, координат, чисел или интерфейса для запросов — мы надеемся ещё больше увеличить свою полезность. Мы знаем, что несколько компаний уже поддерживают свои внутренние копии Wikidata. Надеюсь, что и они приносят какую-то пользу. :)
Вы часто выступаете на конференциях и в разных университетах. Как активное сообщество отреагировали на Wikidata?
Они были просто счастливы. Почти все, кто когда-либо имел дело со ссылками на статьи на других языках, обрадовались появлению Wikidata. И многим очень любопытно, куда нас как сообщество приведут справочные данные (infobox data). Практически каждый википедист, с которым я говорил, упоминал, что они очень ждали появления подобного проекта и даже думали сами его делать. Так что они очень рады видеть, что он наконец-то появился. Wikidata появилась не в одночасье. Идея такого проекта обсуждалась с момента первой конференции Wikimania в 2005 году и даже раньше. Так что, как и многие, я счастлив видеть её реализованной.
Естественно, такое разнородное, интеллектуальное и имеющее критический взгляд на вещи сообщество, как в Википедии, может не иметь единого мнения. И достаточное количество участников переживают из-за проблем, которые могут возникнуть с Wikidata. И понятно их желание подождать, посмотреть, как это работает, убедиться, что проект полезен, и только тогда использовать его.
Добровольность — один из базовых принципов Wikidata. Это предложение. Любое сообщество может решить как соглашаться принимать его, так и нет. Причем они вплоть до мелчайших деталей могут выбирать, что использовать, а что — нет.
По крайней мере, до сегодняшнего дня я был очень доволен тем, как реагирует сообщество, и надеюсь, что его участники будут и дальше конструктивно общаться с нами, проявлять энтузиазм или обдуманно нас критиковать.
Расскажите немного о команде. Как много времени ей понадобилось, чтобы разработать первую версию?
Мы начинали с командой из 12 человек, которые работали полный рабочий день, — мы хотели быстро запуститься. Первый год работы, полный амбициозных целей, был чётко распланирован. Нашей задачей было показать, что мы действительно справляемся с большими и сложными проблемами, которые возникали в работе над проектом. Все шло отлично, и релиз состоялся где-то через полгода. В течение этого времени мы начали добавлять всё больше и больше возможностей. Спустя 10 месяцев, наши данные начали использовать первые википедисты, и данные Wikidata сами начали обогащаться.
Это также потребовало от нас некоторое время: чтобы отработать циклы разработки и деплоймента и научиться эффективно общаться с главным офисом в Сан-Франциско. Команда Wikidata находится в Берлине, — немецкое отделение Викимедиа играет ведущую роль в разработке — и это первый раз, когда мы работаем над проектом такого масштаба без прямого участия Фонда Викимедиа. Было большое количество вещей, без урегулирования которых нельзя было начинать.
В конце первого года разработки мы снизили её темпы, и команда соответственно сократилась. В настоящее время над Wikidata работают 10 человек, и не все из них — полный рабочий день. Нужно сделать ещё много, но уже не в авральном режиме: мы должны быть осторожны, давать сообществу передохнуть и развиваться вместе с нами дальше. Мы продолжаем добавлять много новых возможностей и работаем над своим техническим долгом.
Первая версия была запущена около года назад, а вторая — совсем недавно. Можете поделиться какой-то статистикой? Сколько объектов уже добавили? Это происходит автоматически, полуавтоматически или полностью вручную?
Сейчас у нас в системе описано более 13M объектов. Числа абсолютно потрясающие: поддержка утверждений была добавлена только в феврале, а сейчас — в конце мая — мы перешагнули цифру в 10M утверждений. Это очень хорошо по сравнению с нашими ожиданиями: когда нам нужно было подсчитать число объектов, которые у нас должны быть к концу первого года, мы сошлись на 100 000.
Работа очень сильно скошена в сторону полуавтоматического редактирования. Около 85-90% всех правок сделаны тремя-четырьмя десятками роботов. Но из-за невероятно сильного роста количества правок Wikidata – они опережают даже те, которые делаются в англоязычной Википедии, — в реальности у нас большое число ручных изменений. В настоящее время около одного миллиона правок в месяц вносятся более чем 8000 людей. Также изменения, сделанные роботами, очень ограничены и жёстко регулируются их создателями. Но это именно то, что мы ожидали и на что надеялись, — среда, в которой роботы и люди могут работать вместе более эффективно, чем в обычных Wiki.
Какое будущее вы видите у Wikidata? Какие у вас краткосрочные и долгосрочные цели? Как вы решаете, чем заниматься в первую очередь? Кто может участвовать в принятии такого решения?
Краткосрочно нам всё ещё не хватает нескольких важных возможностей: поддержки типов данных для времени, координат, нескольких чисел, текста и URL, а также нескольких базовых возможностей — например, возможности сортировать и ранжировать содержимое. Кроме того, мы постоянно работаем над тем, чтобы поддерживать больше типов экспорта для наших данных, а также над возможностью задавать запросы к Wikidata. Также в этом году в Википедиях появится Визуальный редактор. Мы планируем, как интегрироваться в его интерфейс, чтобы сделать возможным взаимодействие между информацией в Википедиях и Wikidata настолько удобным, насколько это возможно. Также мы работаем над тем, чтобы поддержать не только Википедию, но и другие проекты Викимедиа в ближайшее время. Кроме того, хотим сделать так, чтобы нашим софтом можно было пользоваться и для других сценариев работы.
Если говорить о долгосрочных планах развития Wikidata, ключевой вопрос для нас: сможем ли мы стать тем, на что надеемся, —основным для Веба хранилищем сущностей с ID. Мы видим будущее, в котором все сущности идентифицируются с помощью Wikidata. Приложения могут использовать данные из Wikidata, а могут и нет, но мы всерьёз надеемся, что идентификаторы станут важной частью Веба в 2015 году. Если у Wikidata получится добиться этого, я буду считать, что мы заложили важный камень в основание более интеллектуального Веба, где связь данных между гетерогенными источниками будет осуществляться легче, и это будет полезно каждому пользователю больше, чем мы даже можем сейчас представить.
Ну, а пока наши задачи более скромные: поддерживать Википедию, улучшая её качество и снижая сложность её эксплуатации. И, таким образом, поддерживать энциклопедию в её сверхзадаче принести знания всем людям мира.
Wikidata — проект Фонда Викимедиа, совместно редактируемая база знаний для централизованного хранения структурированных данных.
Специально для нашего техноблога на Хабре мы расспросили Denny Vrandečić, одного из основателей этого проекта, о том, что такое Wikidata в подробностях, чем отличается от других похожих проектов и какую пользу может принести инфраструктуре будущего интернета и всем его пользователям.
Что такое Wikidata? Какие у этого проекта цели? Почему именно Wikidata стал первым проектом Фонда Викимедиа с 2006 года?
Wikidata — это новый проект Фонда Викимедиа. Главная задача последнего — предоставить каждому человеку на планете свободный доступ ко всем возможным знаниям. Самый известный наш проект — Википедия, открытая энциклопедия, доступная более чем на 200 языках.
Версии на некоторых из этих языков (например, на русском или английском) поддерживают очень активные сообщества. Но для многих других невозможно обеспечить такой же уровень полноты и актуальности. Также, оказывается, что энциклопедию на тех языках, для которых не хватает редакторов, легче портить: не хватает тех, кто бы правил все и к тому же не давал информации устаревать.
Wikidata создана, чтобы частично это исправить. Мы делаем открытую многоязычную базу структурированных данных с информацией, которую можно использовать в Википедии и других проектах — в том числе и внешних по отношению к Викимедиа. Наши данные можно использовать свободно — лицензия разрешает почти любое использование. Каждый сможет вносить изменения в данные проекта, которые уже сейчас доступны на более чем 300 языках.
В общем, Викимедиа запустила этот проект, чтобы улучшить качество языковых версий Википедии и позволить редакторам более эффективно тратить своё время.
Чем Wikidata отличается от других похожих проектов — Freebase, DBpedia? Зачем делать ещё одну машиночитаемую базу структурированной информации?
DBpedia занимается тем, что собирает данные из Википедий, т.е. делает практически обратное тому, чем занимается Wikidata. Кроме того, отсюда следует, что в DBpedia никакие данные нельзя редактировать напрямую.
Freebase — проект, очень похожий на Wikidata, и я допускаю возможное взаимодействие в будущем. Начиная от проверки консистентности наших данных и вплоть до обмена ими в рамках, которые допускают наши лицензии. Посмотрим, что из этого получится. Основное отличие Freebase от Wikidata в том, что для последней гораздо важнее многоязычность и наличие источников — причём на самом деле и то, и другое есть в Freebase, но разобрать это в их интерфейсе не очень просто. Второе очевидное отличие — Freebase делает Google, а Wikidata — некоммерческая организация. Это, как мы надеемся, немного снижает риски использования данных из неё.
Планируется ли интеграция с уже существующими хранилищами данных?
Мы уже интегрируемся со всё большим количеством внешних баз, в основном через связи идентификаторов. Сотни тысяч единиц информации из Wikidata уже связаны с VIAF, GND, MusicBrainz, IMDB и многими другими каталогами и базами данных. Верим, что это может оказаться одним из самых больших вкладов, которые Wikidata внесёт в будущее инфраструктуры Веба, в создание сети знаний и связь сущностей в интернете.
Какое Wikidata имеет отношение к Википедии и как она взаимодействует с её языковыми разделами?
Wikidata предоставляет данные, которые можно использовать в региональных Википедиях. Нашим первым шагом было организовать доступ к ссылкам на версии статьи на разных языках, которые раньше хранились децентрализовано — в каждой статье отдельно. Теперь в Wikidata есть единое центральное место для таких ссылок, и это позволило убрать много бессмысленной повторяющейся информации из языковых версий Википедии.
Второй шаг (но тоже всё ещё начальный) — предоставить Википедии другую форму структурированных данных. Например, идентификаторы от IMDB, которые в некоторых из языковых версий Википедии уже берутся и отображаются из Wikidata. Мы надеемся, что такая практика будет понемногу нарастать и становиться всё более полезной для Википедии, хотя этот процесс не может быть быстрым — сначала Wikidata должна заслужить доверие википедистов. А они, в свою очередь, должны научиться правильно использовать новые возможности. Сообщества широко пересекаются, и сильно поможет, но то, как именно они смогут начать пользоваться Wikidata, — будет самым важным и интересным для нас вопросом в будущем.
Кого вы видите пользователям Wikidata? Есть ли уже примеры успеха?
Сейчас у нас на Wikidata более 8000 активных редакторов. Это значит, что по количеству редакторов Wikidata была бы в десятке самых популярных Википедий. И поскольку именно Википедия — наша главная область применения, мы очень рады, что уже настолько полезны. Так что это и есть наш главный пример и показатель успеха.
Есть и ещё несколько отличных примеров использования Wikidata. Например, Wiri — система, которая может принимать вопросы на естественном языке (в данном случае — английском) и отвечать на них, Geneology Visualizer и альтернативный интерфейс для браузинга Википедии — «Tree of life». В некоторых исследовательских проектах уже используют данные Wikidata. Например, в гендерном анализе Википедии и для изучения полноты разных языков. Такие вещи с Wikidata становится исследовать гораздо проще.
Думаю, это очень неплохо для проекта, который появился всего несколько месяцев назад. И по мере появления новых возможностей — типов данных для времени, координат, чисел или интерфейса для запросов — мы надеемся ещё больше увеличить свою полезность. Мы знаем, что несколько компаний уже поддерживают свои внутренние копии Wikidata. Надеюсь, что и они приносят какую-то пользу. :)
Вы часто выступаете на конференциях и в разных университетах. Как активное сообщество отреагировали на Wikidata?
Они были просто счастливы. Почти все, кто когда-либо имел дело со ссылками на статьи на других языках, обрадовались появлению Wikidata. И многим очень любопытно, куда нас как сообщество приведут справочные данные (infobox data). Практически каждый википедист, с которым я говорил, упоминал, что они очень ждали появления подобного проекта и даже думали сами его делать. Так что они очень рады видеть, что он наконец-то появился. Wikidata появилась не в одночасье. Идея такого проекта обсуждалась с момента первой конференции Wikimania в 2005 году и даже раньше. Так что, как и многие, я счастлив видеть её реализованной.
Естественно, такое разнородное, интеллектуальное и имеющее критический взгляд на вещи сообщество, как в Википедии, может не иметь единого мнения. И достаточное количество участников переживают из-за проблем, которые могут возникнуть с Wikidata. И понятно их желание подождать, посмотреть, как это работает, убедиться, что проект полезен, и только тогда использовать его.
Добровольность — один из базовых принципов Wikidata. Это предложение. Любое сообщество может решить как соглашаться принимать его, так и нет. Причем они вплоть до мелчайших деталей могут выбирать, что использовать, а что — нет.
По крайней мере, до сегодняшнего дня я был очень доволен тем, как реагирует сообщество, и надеюсь, что его участники будут и дальше конструктивно общаться с нами, проявлять энтузиазм или обдуманно нас критиковать.
Расскажите немного о команде. Как много времени ей понадобилось, чтобы разработать первую версию?
Мы начинали с командой из 12 человек, которые работали полный рабочий день, — мы хотели быстро запуститься. Первый год работы, полный амбициозных целей, был чётко распланирован. Нашей задачей было показать, что мы действительно справляемся с большими и сложными проблемами, которые возникали в работе над проектом. Все шло отлично, и релиз состоялся где-то через полгода. В течение этого времени мы начали добавлять всё больше и больше возможностей. Спустя 10 месяцев, наши данные начали использовать первые википедисты, и данные Wikidata сами начали обогащаться.
Это также потребовало от нас некоторое время: чтобы отработать циклы разработки и деплоймента и научиться эффективно общаться с главным офисом в Сан-Франциско. Команда Wikidata находится в Берлине, — немецкое отделение Викимедиа играет ведущую роль в разработке — и это первый раз, когда мы работаем над проектом такого масштаба без прямого участия Фонда Викимедиа. Было большое количество вещей, без урегулирования которых нельзя было начинать.
В конце первого года разработки мы снизили её темпы, и команда соответственно сократилась. В настоящее время над Wikidata работают 10 человек, и не все из них — полный рабочий день. Нужно сделать ещё много, но уже не в авральном режиме: мы должны быть осторожны, давать сообществу передохнуть и развиваться вместе с нами дальше. Мы продолжаем добавлять много новых возможностей и работаем над своим техническим долгом.
Первая версия была запущена около года назад, а вторая — совсем недавно. Можете поделиться какой-то статистикой? Сколько объектов уже добавили? Это происходит автоматически, полуавтоматически или полностью вручную?
Сейчас у нас в системе описано более 13M объектов. Числа абсолютно потрясающие: поддержка утверждений была добавлена только в феврале, а сейчас — в конце мая — мы перешагнули цифру в 10M утверждений. Это очень хорошо по сравнению с нашими ожиданиями: когда нам нужно было подсчитать число объектов, которые у нас должны быть к концу первого года, мы сошлись на 100 000.
Работа очень сильно скошена в сторону полуавтоматического редактирования. Около 85-90% всех правок сделаны тремя-четырьмя десятками роботов. Но из-за невероятно сильного роста количества правок Wikidata – они опережают даже те, которые делаются в англоязычной Википедии, — в реальности у нас большое число ручных изменений. В настоящее время около одного миллиона правок в месяц вносятся более чем 8000 людей. Также изменения, сделанные роботами, очень ограничены и жёстко регулируются их создателями. Но это именно то, что мы ожидали и на что надеялись, — среда, в которой роботы и люди могут работать вместе более эффективно, чем в обычных Wiki.
Какое будущее вы видите у Wikidata? Какие у вас краткосрочные и долгосрочные цели? Как вы решаете, чем заниматься в первую очередь? Кто может участвовать в принятии такого решения?
Краткосрочно нам всё ещё не хватает нескольких важных возможностей: поддержки типов данных для времени, координат, нескольких чисел, текста и URL, а также нескольких базовых возможностей — например, возможности сортировать и ранжировать содержимое. Кроме того, мы постоянно работаем над тем, чтобы поддерживать больше типов экспорта для наших данных, а также над возможностью задавать запросы к Wikidata. Также в этом году в Википедиях появится Визуальный редактор. Мы планируем, как интегрироваться в его интерфейс, чтобы сделать возможным взаимодействие между информацией в Википедиях и Wikidata настолько удобным, насколько это возможно. Также мы работаем над тем, чтобы поддержать не только Википедию, но и другие проекты Викимедиа в ближайшее время. Кроме того, хотим сделать так, чтобы нашим софтом можно было пользоваться и для других сценариев работы.
Если говорить о долгосрочных планах развития Wikidata, ключевой вопрос для нас: сможем ли мы стать тем, на что надеемся, —основным для Веба хранилищем сущностей с ID. Мы видим будущее, в котором все сущности идентифицируются с помощью Wikidata. Приложения могут использовать данные из Wikidata, а могут и нет, но мы всерьёз надеемся, что идентификаторы станут важной частью Веба в 2015 году. Если у Wikidata получится добиться этого, я буду считать, что мы заложили важный камень в основание более интеллектуального Веба, где связь данных между гетерогенными источниками будет осуществляться легче, и это будет полезно каждому пользователю больше, чем мы даже можем сейчас представить.
Ну, а пока наши задачи более скромные: поддерживать Википедию, улучшая её качество и снижая сложность её эксплуатации. И, таким образом, поддерживать энциклопедию в её сверхзадаче принести знания всем людям мира.