Search
Write a publication
Pull to refresh

Comments 10

А вообще такие графы всегда являются собственностью компаний, или есть свободные базы данных которые можно скачать?
Как правило поисковые компании неохотно делятся (или не делятся совсем) своими графами. Но некоторые предоставляют API, для доступа к данным, например, Google. Есть и свободные графы знаний, которые может скачать любой желающий. В статье упоминаются некоторые из них. Например, Freebase, Wikidata и DBpedia.

А сколько «объектов» и «записей» у вас? И как вы их храните?


Объясните еще, пожалуйста, как вы считали количества записей и количества объектов в «открытых графах знаний», или дайте ссылки туда, откуда вы эти цифры взяли. У меня другие цифры получаются / находятся.


Также стоило бы указать, что дампы обычно не являются основным способом доступа к «открытым графам знаний», и при иных способах доступа приводимые вами характеристики могут быть иными.




Для тех, кому эти темы интересны, в Telegram есть по ним пара групп:


Wikidata (группа закрытая, ссылка может меняться, актуальная всегда есть в шапке этой страницы);
Linked Data Russia (группа открытая, но ведите себя скромно, пожалуйста).

А сколько «объектов» и «записей» у вас? И как вы их храните?

Сейчас в нашем графе 71 521 402 объектов (но это вместе со служебными объектами, например, с теми, которые представляют собой сложные отношения) и 1 899 142 069 записей (триплов).

Все данные хранятся и обрабатываются в самописном хранилище. Если коротко, то все элементы триплов хэшируются и почти вся работа производится с хэшами, кроме самого конца, когда нам необходимо получить строковое представление данных. Хэшированные триплы хранятся в отсортированном виде. Хранилище поддерживает только простые запросы, вида: вернуть все элементы в указанном диапазоне, где диапазоны задаются в виде хэшей spo-троек, где пропуски могут быть только в правой части (например: (s, *, *), (s, p, *), (s, p, o)). Вся более сложная логика реализована поверх запросов такого типа. Все данные хранятся в памяти.

Объясните еще, пожалуйста, как вы считали количества записей и количества объектов в «открытых графах знаний», или дайте ссылки туда, откуда вы эти цифры взяли. У меня другие цифры получаются / находятся.

Статистика в таблице дана скорее для понимания объемов данных, с которыми приходится работать. Данные про объемы графов взяты из публикации Färber M., Rettinger A. Which Knowledge Graph Is Best for Me? //arXiv preprint arXiv:1809.11099. – 2018. Не исключаю, что за время, которое прошло с ее публикации что-то могло сильно поменяться.

Понял, спасибо большое!


Про число «записей» и «объектов» написал авторам. Самый большой вопрос по Викиданным. Если верить этой таблице (а не верить ей нет оснований, и результаты подтверждаются пересчетом), то указанное для Викиданных число триплетов было достигнуто летом 2019 года. Число Q-сущностей было в это время в четыре раза больше указанного. При этом статья была опубликована осенью 2018.

А вы пытались склеить граф wikidata и dbpedia. Сколько объектов удалось объединить? Ваш инструмент реализован? И есть ли он в открытом доступе?
А вы пытались склеить граф wikidata и dbpedia.

Нет, пока не пытались. На мой взгляд это интересная исследовательсая задача, которой можно попробовать заняться.

Ваш инструмент реализован? И есть ли он в открытом доступе?

Да, инструмент реализован и активно используется. К сожалению, в открытом доступе его пока нет.

А чего тут склеивать? Все уже давно склеено. Linked Data все-таки.


  • В Викиданных есть так называемые sitelinks. При наличии ссылки на страницу английской Википедии восстановить связь с сущностью DBpedia можно тривиально.
  • Обратно, в DBpedia сущности связаны с сущностями Викиданных через owl:sameAs. Уж разобрать-то ссылку «Wikidata Item» в левой колонке страницы Википедии DBpedia Extraction Framework умеет.

На DBpedia даже есть именованный граф <http://www.wikidata.org>. Когда-то вообще даже был ресурс wikidata.dbpedia.org.

Спасибо за ответ. Но мне интересна процедура автоматического отождествления объектов разных графов.

Вообще-то то, что автор назвал «Граф знаний», на деле является Графом Семантических Связей — ГСС, что далеко не тождественно друг-другу.
Граф Знаний пытаются сформировать давно, но проблема заключается в неразработанности машинного формата «Знаний».
С появлением реального Графа Знаний появится и СИИ — Сильный Искусственный Интеллект, способный к мыслительной деятельности.
А так, в целом, зачётная статья.
Sign up to leave a comment.