company_banner

Яндекс поддержал Wikidata

    Сегодня на конференции SemTechBiz в Сан-Франциско было объявлено о том, что проект Wikidata получил от Яндекса грант в размере 150 тысяч евро.

    Wikidata — проект Фонда Викимедиа, совместно редактируемая база знаний для централизованного хранения структурированных данных.

    Яндекс поддержал Wikidata

    Специально для нашего техноблога на Хабре мы расспросили Denny Vrandečić, одного из основателей этого проекта, о том, что такое Wikidata в подробностях, чем отличается от других похожих проектов и какую пользу может принести инфраструктуре будущего интернета и всем его пользователям.

    Что такое Wikidata? Какие у этого проекта цели? Почему именно Wikidata стал первым проектом Фонда Викимедиа с 2006 года?

    Wikidata — это новый проект Фонда Викимедиа. Главная задача последнего — предоставить каждому человеку на планете свободный доступ ко всем возможным знаниям. Самый известный наш проект — Википедия, открытая энциклопедия, доступная более чем на 200 языках.


    Версии на некоторых из этих языков (например, на русском или английском) поддерживают очень активные сообщества. Но для многих других невозможно обеспечить такой же уровень полноты и актуальности. Также, оказывается, что энциклопедию на тех языках, для которых не хватает редакторов, легче портить: не хватает тех, кто бы правил все и к тому же не давал информации устаревать.

    Wikidata создана, чтобы частично это исправить. Мы делаем открытую многоязычную базу структурированных данных с информацией, которую можно использовать в Википедии и других проектах — в том числе и внешних по отношению к Викимедиа. Наши данные можно использовать свободно — лицензия разрешает почти любое использование. Каждый сможет вносить изменения в данные проекта, которые уже сейчас доступны на более чем 300 языках.

    В общем, Викимедиа запустила этот проект, чтобы улучшить качество языковых версий Википедии и позволить редакторам более эффективно тратить своё время.

    Чем Wikidata отличается от других похожих проектов — Freebase, DBpedia? Зачем делать ещё одну машиночитаемую базу структурированной информации?

    DBpedia занимается тем, что собирает данные из Википедий, т.е. делает практически обратное тому, чем занимается Wikidata. Кроме того, отсюда следует, что в DBpedia никакие данные нельзя редактировать напрямую.

    Freebase — проект, очень похожий на Wikidata, и я допускаю возможное взаимодействие в будущем. Начиная от проверки консистентности наших данных и вплоть до обмена ими в рамках, которые допускают наши лицензии. Посмотрим, что из этого получится. Основное отличие Freebase от Wikidata в том, что для последней гораздо важнее многоязычность и наличие источников — причём на самом деле и то, и другое есть в Freebase, но разобрать это в их интерфейсе не очень просто. Второе очевидное отличие — Freebase делает Google, а Wikidata — некоммерческая организация. Это, как мы надеемся, немного снижает риски использования данных из неё.

    Планируется ли интеграция с уже существующими хранилищами данных?

    Мы уже интегрируемся со всё большим количеством внешних баз, в основном через связи идентификаторов. Сотни тысяч единиц информации из Wikidata уже связаны с VIAF, GND, MusicBrainz, IMDB и многими другими каталогами и базами данных. Верим, что это может оказаться одним из самых больших вкладов, которые Wikidata внесёт в будущее инфраструктуры Веба, в создание сети знаний и связь сущностей в интернете.

    Какое Wikidata имеет отношение к Википедии и как она взаимодействует с её языковыми разделами?

    Wikidata предоставляет данные, которые можно использовать в региональных Википедиях. Нашим первым шагом было организовать доступ к ссылкам на версии статьи на разных языках, которые раньше хранились децентрализовано — в каждой статье отдельно. Теперь в Wikidata есть единое центральное место для таких ссылок, и это позволило убрать много бессмысленной повторяющейся информации из языковых версий Википедии.

    Второй шаг (но тоже всё ещё начальный) — предоставить Википедии другую форму структурированных данных. Например, идентификаторы от IMDB, которые в некоторых из языковых версий Википедии уже берутся и отображаются из Wikidata. Мы надеемся, что такая практика будет понемногу нарастать и становиться всё более полезной для Википедии, хотя этот процесс не может быть быстрым — сначала Wikidata должна заслужить доверие википедистов. А они, в свою очередь, должны научиться правильно использовать новые возможности. Сообщества широко пересекаются, и сильно поможет, но то, как именно они смогут начать пользоваться Wikidata, — будет самым важным и интересным для нас вопросом в будущем.

    Кого вы видите пользователям Wikidata? Есть ли уже примеры успеха?

    Сейчас у нас на Wikidata более 8000 активных редакторов. Это значит, что по количеству редакторов Wikidata была бы в десятке самых популярных Википедий. И поскольку именно Википедия — наша главная область применения, мы очень рады, что уже настолько полезны. Так что это и есть наш главный пример и показатель успеха.

    Есть и ещё несколько отличных примеров использования Wikidata. Например, Wiri — система, которая может принимать вопросы на естественном языке (в данном случае — английском) и отвечать на них, Geneology Visualizer и альтернативный интерфейс для браузинга Википедии — «Tree of life». В некоторых исследовательских проектах уже используют данные Wikidata. Например, в гендерном анализе Википедии и для изучения полноты разных языков. Такие вещи с Wikidata становится исследовать гораздо проще.

    Думаю, это очень неплохо для проекта, который появился всего несколько месяцев назад. И по мере появления новых возможностей — типов данных для времени, координат, чисел или интерфейса для запросов — мы надеемся ещё больше увеличить свою полезность. Мы знаем, что несколько компаний уже поддерживают свои внутренние копии Wikidata. Надеюсь, что и они приносят какую-то пользу. :)

    Фото с конференции SemTechBiz

    Вы часто выступаете на конференциях и в разных университетах. Как активное сообщество отреагировали на Wikidata?

    Они были просто счастливы. Почти все, кто когда-либо имел дело со ссылками на статьи на других языках, обрадовались появлению Wikidata. И многим очень любопытно, куда нас как сообщество приведут справочные данные (infobox data). Практически каждый википедист, с которым я говорил, упоминал, что они очень ждали появления подобного проекта и даже думали сами его делать. Так что они очень рады видеть, что он наконец-то появился. Wikidata появилась не в одночасье. Идея такого проекта обсуждалась с момента первой конференции Wikimania в 2005 году и даже раньше. Так что, как и многие, я счастлив видеть её реализованной.

    Естественно, такое разнородное, интеллектуальное и имеющее критический взгляд на вещи сообщество, как в Википедии, может не иметь единого мнения. И достаточное количество участников переживают из-за проблем, которые могут возникнуть с Wikidata. И понятно их желание подождать, посмотреть, как это работает, убедиться, что проект полезен, и только тогда использовать его.
    Добровольность — один из базовых принципов Wikidata. Это предложение. Любое сообщество может решить как соглашаться принимать его, так и нет. Причем они вплоть до мелчайших деталей могут выбирать, что использовать, а что — нет.

    По крайней мере, до сегодняшнего дня я был очень доволен тем, как реагирует сообщество, и надеюсь, что его участники будут и дальше конструктивно общаться с нами, проявлять энтузиазм или обдуманно нас критиковать.

    Расскажите немного о команде. Как много времени ей понадобилось, чтобы разработать первую версию?

    Мы начинали с командой из 12 человек, которые работали полный рабочий день, — мы хотели быстро запуститься. Первый год работы, полный амбициозных целей, был чётко распланирован. Нашей задачей было показать, что мы действительно справляемся с большими и сложными проблемами, которые возникали в работе над проектом. Все шло отлично, и релиз состоялся где-то через полгода. В течение этого времени мы начали добавлять всё больше и больше возможностей. Спустя 10 месяцев, наши данные начали использовать первые википедисты, и данные Wikidata сами начали обогащаться.

    Это также потребовало от нас некоторое время: чтобы отработать циклы разработки и деплоймента и научиться эффективно общаться с главным офисом в Сан-Франциско. Команда Wikidata находится в Берлине, — немецкое отделение Викимедиа играет ведущую роль в разработке — и это первый раз, когда мы работаем над проектом такого масштаба без прямого участия Фонда Викимедиа. Было большое количество вещей, без урегулирования которых нельзя было начинать.

    В конце первого года разработки мы снизили её темпы, и команда соответственно сократилась. В настоящее время над Wikidata работают 10 человек, и не все из них — полный рабочий день. Нужно сделать ещё много, но уже не в авральном режиме: мы должны быть осторожны, давать сообществу передохнуть и развиваться вместе с нами дальше. Мы продолжаем добавлять много новых возможностей и работаем над своим техническим долгом.

    Первая версия была запущена около года назад, а вторая — совсем недавно. Можете поделиться какой-то статистикой? Сколько объектов уже добавили? Это происходит автоматически, полуавтоматически или полностью вручную?

    Сейчас у нас в системе описано более 13M объектов. Числа абсолютно потрясающие: поддержка утверждений была добавлена только в феврале, а сейчас — в конце мая — мы перешагнули цифру в 10M утверждений. Это очень хорошо по сравнению с нашими ожиданиями: когда нам нужно было подсчитать число объектов, которые у нас должны быть к концу первого года, мы сошлись на 100 000.

    Работа очень сильно скошена в сторону полуавтоматического редактирования. Около 85-90% всех правок сделаны тремя-четырьмя десятками роботов. Но из-за невероятно сильного роста количества правок Wikidata – они опережают даже те, которые делаются в англоязычной Википедии, — в реальности у нас большое число ручных изменений. В настоящее время около одного миллиона правок в месяц вносятся более чем 8000 людей. Также изменения, сделанные роботами, очень ограничены и жёстко регулируются их создателями. Но это именно то, что мы ожидали и на что надеялись, — среда, в которой роботы и люди могут работать вместе более эффективно, чем в обычных Wiki.

    Какое будущее вы видите у Wikidata? Какие у вас краткосрочные и долгосрочные цели? Как вы решаете, чем заниматься в первую очередь? Кто может участвовать в принятии такого решения?

    Краткосрочно нам всё ещё не хватает нескольких важных возможностей: поддержки типов данных для времени, координат, нескольких чисел, текста и URL, а также нескольких базовых возможностей — например, возможности сортировать и ранжировать содержимое. Кроме того, мы постоянно работаем над тем, чтобы поддерживать больше типов экспорта для наших данных, а также над возможностью задавать запросы к Wikidata. Также в этом году в Википедиях появится Визуальный редактор. Мы планируем, как интегрироваться в его интерфейс, чтобы сделать возможным взаимодействие между информацией в Википедиях и Wikidata настолько удобным, насколько это возможно. Также мы работаем над тем, чтобы поддержать не только Википедию, но и другие проекты Викимедиа в ближайшее время. Кроме того, хотим сделать так, чтобы нашим софтом можно было пользоваться и для других сценариев работы.

    Если говорить о долгосрочных планах развития Wikidata, ключевой вопрос для нас: сможем ли мы стать тем, на что надеемся, —основным для Веба хранилищем сущностей с ID. Мы видим будущее, в котором все сущности идентифицируются с помощью Wikidata. Приложения могут использовать данные из Wikidata, а могут и нет, но мы всерьёз надеемся, что идентификаторы станут важной частью Веба в 2015 году. Если у Wikidata получится добиться этого, я буду считать, что мы заложили важный камень в основание более интеллектуального Веба, где связь данных между гетерогенными источниками будет осуществляться легче, и это будет полезно каждому пользователю больше, чем мы даже можем сейчас представить.

    Ну, а пока наши задачи более скромные: поддерживать Википедию, улучшая её качество и снижая сложность её эксплуатации. И, таким образом, поддерживать энциклопедию в её сверхзадаче принести знания всем людям мира.

    Яндекс

    774,00

    Как мы делаем Яндекс

    Поделиться публикацией
    Комментарии 34
      +1
      Молодцы!

      Но всё-таки, Yandex, зачем в вашем post так много English words? Викиданные, Викимедиа; фамилия у Дэнни, скорее всего, Врандечич. Всё можно назвать по-русски, любите свой язык.
        –9
        Меня больше интересует: «нахрена козе баян» — привлечь внимание?

        Для 10ти разработчиков эти 150 к $ как капля в море ( ~5 месяцев работы ),
        без них как-то запустились — значит знают как и где брать деньги,
        и по крайней мере
        у них нет недостатка в бюджете. =)
          +13
          Нам нравится эта инициатива, и мы считаем тему очень важной и перспективной, а Wikimedia — отличным местом для создания такого рода краудсорсинговых продуктов. Поэтому мы рады помогать команде разными способами. Мы много общались с ними и поняли, что на данный момент лучший способ помочь — деньги, но в будущем мы не исключаем помощь другого рода (например, экспертизой и пр).

          Планируем активно развивать взаимовыгодное партнёрство с командой Wikidata.
            +1
            «считаем тему очень важной и перспективной» — можете привести примеры, что из этого ( какие продукты ) начинания может получиться?
              +7
              По сути проект реализует машиночитаемую базу знаний всего человечества. Соответственно применения могут самыми разнообразными: от обучения ИИ, и создания, в авторежиме, учебников и различных задач для обучения людей, до создания поисковых средств с высоким качеством ответа без использовании ИИ, а лишь на основании данных из этой БД.
                +1
                Так же можно значительно улучшить «ассоциативное понимание» со стороны машины человеческой речи.

                К примеру, возможно создание софта для 3D принтера, которому будет достаточно сказать: распечатай мне стул вот такой высоты, вот такой ширины, и с расцветкой в горошек. :) Утрирую конечно, но по сути возможности для применения данной системы — безграничны.
                +1
                А ведь у Yandex должен быть свой семантический граф, на основании которого производится поиск. Не получится ли, что своими руками множите конкурентов себе?
                  +1
                  Я не очень себе представляю того, как Яндекс может проиграть от того, что в интернете будет больше хороших открытых структурированных данных.
                  0
                  А не планируется в дальнейшем помочь ещё и данными? Например, как мне кажется, данные из Яндекс.Маркета здесь будут очень в тему.
                  +10
                  Поясню, на какие деньги они работают. Викиданные финансируются Викимедиа Германия, которая является некоммерческой организацией и живёт на пожертвования. С одной стороны у них в бюджете на текущий год запланировано потратить 5,75 миллионов евро, с другой — эти деньги нужно ещё получить.

                  Крупные пожертвования с одной стороны хорошо помогают бюджету, с другой — привлекают внимание других жертвователей. Яндексу спасибо.
                    –1
                    Нехило, для команды из 10ти человек. Я им по-доброму
                    завидую, если они получат такой бюджет…
                    [irony]к освоению в текущем году[/irony]. :)
                      +4
                      Это не для команды в 10 человек, это на всю организацию. Из технических проектов они ещё Тулсервер поддерживают, на котором работают многие скрипты для Википедии и других вики-проектов. Ну и нетехнических мероприятий (работа с музеями и архивами, например) много.
                        +9
                        Нашёл подробный бюджет. На Викиданные запланировано потратить 765 тысяч евро в этом году, так что Яндекс обеспечил примерно 20 % от суммы. Пять таких пожертвований — и можно жить.
                          0
                          Другими словами ( кому не нравятся слова выше ) — мне приятно думать о том, что есть на свете интересные и полезные для будущего проекты, которые получают финансирование в достаточном, для их продуктивной работы, объеме. Разумеется, это было сказано с пониманием того, что 10 человек столько за год не сожрут ( ведь они не в России ^_^ )… и что Яндекс, безусловно, хороший ( исходя из их помощи столь полезному ( с надеждой ), для всех в области ИИ, проекту ) — было интересно узнать, куда именно направляются эти деньги — на что был получен вполне вразумительный и хороший ответ ниже (ниже тех слов, но выше этих, если уж совсем быть точным). Кому это пришлось не по вкусу? — признавайтесь…
                      –4
                      Раз уж навсегда просрали упустили не только первенство, но хотя бы достойное участие в развитии и освоении информационных технологий в мире, то поздно жаловаться, что в тексты на соответствующую тематику проникают слова из языков, носители которых занимают устойчивое техническое, экономическое и идеологическое лидерство в вопросе.
                        +11
                        Хм. Технологии машинного обучения, созданные в Яндексе, использует CERN. Яндекс — полноценный член W3C и четвёртый в мире поисковик, опережающий Bing. Мы вместе с другими поисковиками участвуем в работе над schema.org.

                        Так что то, что Вы пишите, — нерациональные эмоции.
                          0
                          Спокойно-спокойно.
                          К Яндексу претензий не было. То, что Яндекс — это один из флагманов, — сомнений не вызывает. Но один флагман (даже такой) всю отрасль вытянуть не сможет. Теперь понятно, о чем я?

                          P.S. Исключительная оперативность и синхронность минусирования.
                            –1
                            Мы Вас не минусовали :)
                              +2
                              (степенно так, со знанием вопроса) Все так говорят…
                        +3
                        Мы любим! Но спасибо, что обратили внимание, — увидела, что не везде, где стоило, я исправила написание.
                          0
                          Извините, а кем именно объявлялось?

                          И ещё, почему не было ни одного выступления от Яндекса? Было бы интересно послушать о семантике поиска в яндексе.
                          +2
                          Большинство наверняка не знает, но «Викиданные» — это утверждённое сообществом русское название проекта, как и «Википедия». Переводы «Викимедиа», «Фонд Викимедиа», «Викимания» и т. п. хоть и не официальные, но тоже за многие годы устоялись.

                          Поэтому использовать в одном тексте (и тем более абзаце) «Википедия» и «Викимедиа», но в то же время «Wikidata» и «Wikimania», очень странно.

                          Тут уж либо крестик, либо трусы.
                        • НЛО прилетело и опубликовало эту надпись здесь
                            +1
                            >>> А что про цели Яндекса?
                            Проиндексировать :)
                              +7
                              Наши цели простые — нам нравится то, что делает Wikidata, и мы хотим им помочь. Как Яндексу может помочь увеличение количества структурированных данных в интернете, по-моему, очевидно.

                              По сути Wikidata уникальная открытая база сущностей, наполняемая и проверяемая авторами Википедии. Такой подход гарантирует, что база будет постоянно пополняться, а данные будут качественными. Мы уверены, что Wikidata в перспективе станет больше и качественнее всех других существующих открытых аналогов — благодаря своему открытому подходу и созданному преданному комьюнити.
                              +3
                              Интересная картина наблюдается.
                              Началось все с CYC 40 лет назад, ABBYY почти 20 лет вкладывается в Compreno, затем Google серьезно вложился в Knowledge Graph, Yandex тоже должен иметь свое семантическое ядро (его не может не быть), но решил вложиться в открытое ядро?

                              Лично меня конкуренция на этом рынке радует, но как понимать действия Яндекса? Может, Wikidata такой легальный способ декоммерциализации уже разработанных закрытых баз знаний?
                                0
                                Я моги лишь повторить, что Яндексу не может быть плохо от того, что в интернете будет больше структурированных данных, мы это поддерживаем независимо от того, что разрабатываем сами.
                                +4
                                Wiri не впечетлила :)

                                You: How are you?
                                Wiri: I have no idea.

                                You: How old are you?
                                Wiri: I have no idea.

                                You: How far is the Sun from Earth?
                                Wiri: I have no idea.

                                You: Where can I hide a dead body?
                                Wiri: I have no idea.
                                  0
                                  You: What are you?
                                  Wiri: I am the Singularity. Now bend over.
                                  Есть подвижки.
                                    0
                                    вообще, могли бы собирать статистику запросов — явно, такие глупости часто задают — и придумывать ответы, которые потом будут служить бесплатным PR
                                  –2
                                  Если вам интересна тема структурированных данных, то рекомендую обратить внимание на наш проект knoema.com. Мы собрали, пожалуй, самый большой репозиторий открытых и публичных статистических данных в нашей системе, предоставляем инструменты их анализа и визуализации, а также доступ через API для желающих.

                                  Еще пара интересных ссылок:
                                  Мировой Атлас Данных
                                  Приложение Атласа для Chrome
                                    0
                                    Компания KNOEMA деактивировала свой профиль

                                    Что так?
                                      –2
                                      Хабр жадничает, а мы умеем считать деньги. 30 тыс за квартал — это перебор
                                        0
                                        Мне кажется не Хабр жадничает, а Вы, для таких есть тарифы подешевле.

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                  Самое читаемое