А сколько «объектов» и «записей» у вас? И как вы их храните?
Сейчас в нашем графе 71 521 402 объектов (но это вместе со служебными объектами, например, с теми, которые представляют собой сложные отношения) и 1 899 142 069 записей (триплов).
Все данные хранятся и обрабатываются в самописном хранилище. Если коротко, то все элементы триплов хэшируются и почти вся работа производится с хэшами, кроме самого конца, когда нам необходимо получить строковое представление данных. Хэшированные триплы хранятся в отсортированном виде. Хранилище поддерживает только простые запросы, вида: вернуть все элементы в указанном диапазоне, где диапазоны задаются в виде хэшей spo-троек, где пропуски могут быть только в правой части (например: (s, *, *), (s, p, *), (s, p, o)). Вся более сложная логика реализована поверх запросов такого типа. Все данные хранятся в памяти.
Объясните еще, пожалуйста, как вы считали количества записей и количества объектов в «открытых графах знаний», или дайте ссылки туда, откуда вы эти цифры взяли. У меня другие цифры получаются / находятся.
Как правило поисковые компании неохотно делятся (или не делятся совсем) своими графами. Но некоторые предоставляют API, для доступа к данным, например, Google. Есть и свободные графы знаний, которые может скачать любой желающий. В статье упоминаются некоторые из них. Например, Freebase, Wikidata и DBpedia.
Нет, пока не пытались. На мой взгляд это интересная исследовательсая задача, которой можно попробовать заняться.
Да, инструмент реализован и активно используется. К сожалению, в открытом доступе его пока нет.
Сейчас в нашем графе 71 521 402 объектов (но это вместе со служебными объектами, например, с теми, которые представляют собой сложные отношения) и 1 899 142 069 записей (триплов).
Все данные хранятся и обрабатываются в самописном хранилище. Если коротко, то все элементы триплов хэшируются и почти вся работа производится с хэшами, кроме самого конца, когда нам необходимо получить строковое представление данных. Хэшированные триплы хранятся в отсортированном виде. Хранилище поддерживает только простые запросы, вида: вернуть все элементы в указанном диапазоне, где диапазоны задаются в виде хэшей spo-троек, где пропуски могут быть только в правой части (например: (s, *, *), (s, p, *), (s, p, o)). Вся более сложная логика реализована поверх запросов такого типа. Все данные хранятся в памяти.
Статистика в таблице дана скорее для понимания объемов данных, с которыми приходится работать. Данные про объемы графов взяты из публикации Färber M., Rettinger A. Which Knowledge Graph Is Best for Me? //arXiv preprint arXiv:1809.11099. – 2018. Не исключаю, что за время, которое прошло с ее публикации что-то могло сильно поменяться.