Comments 10
А сколько «объектов» и «записей» у вас? И как вы их храните?
Объясните еще, пожалуйста, как вы считали количества записей и количества объектов в «открытых графах знаний», или дайте ссылки туда, откуда вы эти цифры взяли. У меня другие цифры получаются / находятся.
Также стоило бы указать, что дампы обычно не являются основным способом доступа к «открытым графам знаний», и при иных способах доступа приводимые вами характеристики могут быть иными.
Для тех, кому эти темы интересны, в Telegram есть по ним пара групп:
— Wikidata (группа закрытая, ссылка может меняться, актуальная всегда есть в шапке этой страницы);
— Linked Data Russia (группа открытая, но ведите себя скромно, пожалуйста).
А сколько «объектов» и «записей» у вас? И как вы их храните?
Сейчас в нашем графе 71 521 402 объектов (но это вместе со служебными объектами, например, с теми, которые представляют собой сложные отношения) и 1 899 142 069 записей (триплов).
Все данные хранятся и обрабатываются в самописном хранилище. Если коротко, то все элементы триплов хэшируются и почти вся работа производится с хэшами, кроме самого конца, когда нам необходимо получить строковое представление данных. Хэшированные триплы хранятся в отсортированном виде. Хранилище поддерживает только простые запросы, вида: вернуть все элементы в указанном диапазоне, где диапазоны задаются в виде хэшей spo-троек, где пропуски могут быть только в правой части (например: (s, *, *), (s, p, *), (s, p, o)). Вся более сложная логика реализована поверх запросов такого типа. Все данные хранятся в памяти.
Объясните еще, пожалуйста, как вы считали количества записей и количества объектов в «открытых графах знаний», или дайте ссылки туда, откуда вы эти цифры взяли. У меня другие цифры получаются / находятся.
Статистика в таблице дана скорее для понимания объемов данных, с которыми приходится работать. Данные про объемы графов взяты из публикации Färber M., Rettinger A. Which Knowledge Graph Is Best for Me? //arXiv preprint arXiv:1809.11099. – 2018. Не исключаю, что за время, которое прошло с ее публикации что-то могло сильно поменяться.
Понял, спасибо большое!
Про число «записей» и «объектов» написал авторам. Самый большой вопрос по Викиданным. Если верить этой таблице (а не верить ей нет оснований, и результаты подтверждаются пересчетом), то указанное для Викиданных число триплетов было достигнуто летом 2019 года. Число Q-сущностей было в это время в четыре раза больше указанного. При этом статья была опубликована осенью 2018.
А вы пытались склеить граф wikidata и dbpedia.
Нет, пока не пытались. На мой взгляд это интересная исследовательсая задача, которой можно попробовать заняться.
Ваш инструмент реализован? И есть ли он в открытом доступе?
Да, инструмент реализован и активно используется. К сожалению, в открытом доступе его пока нет.
А чего тут склеивать? Все уже давно склеено. Linked Data все-таки.
- В Викиданных есть так называемые sitelinks. При наличии ссылки на страницу английской Википедии восстановить связь с сущностью DBpedia можно тривиально.
- Обратно, в DBpedia сущности связаны с сущностями Викиданных через
owl:sameAs
. Уж разобрать-то ссылку «Wikidata Item» в левой колонке страницы Википедии DBpedia Extraction Framework умеет.
На DBpedia даже есть именованный граф <http://www.wikidata.org>
. Когда-то вообще даже был ресурс wikidata.dbpedia.org.
Граф Знаний пытаются сформировать давно, но проблема заключается в неразработанности машинного формата «Знаний».
С появлением реального Графа Знаний появится и СИИ — Сильный Искусственный Интеллект, способный к мыслительной деятельности.
А так, в целом, зачётная статья.
Граф знаний в Поиске: построение из нескольких источников