Комментарии / Профиль ilvokhin / Хабр

@ilvokhin

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии3

Граф знаний в Поиске: построение из нескольких источников

ilvokhin 2 мар 2020 в 11:11

А вы пытались склеить граф wikidata и dbpedia.

Нет, пока не пытались. На мой взгляд это интересная исследовательсая задача, которой можно попробовать заняться.

Ваш инструмент реализован? И есть ли он в открытом доступе?

Да, инструмент реализован и активно используется. К сожалению, в открытом доступе его пока нет.

Граф знаний в Поиске: построение из нескольких источников

ilvokhin 2 мар 2020 в 11:06

А сколько «объектов» и «записей» у вас? И как вы их храните?

Сейчас в нашем графе 71 521 402 объектов (но это вместе со служебными объектами, например, с теми, которые представляют собой сложные отношения) и 1 899 142 069 записей (триплов).

Все данные хранятся и обрабатываются в самописном хранилище. Если коротко, то все элементы триплов хэшируются и почти вся работа производится с хэшами, кроме самого конца, когда нам необходимо получить строковое представление данных. Хэшированные триплы хранятся в отсортированном виде. Хранилище поддерживает только простые запросы, вида: вернуть все элементы в указанном диапазоне, где диапазоны задаются в виде хэшей spo-троек, где пропуски могут быть только в правой части (например: (s, *, *), (s, p, *), (s, p, o)). Вся более сложная логика реализована поверх запросов такого типа. Все данные хранятся в памяти.

Объясните еще, пожалуйста, как вы считали количества записей и количества объектов в «открытых графах знаний», или дайте ссылки туда, откуда вы эти цифры взяли. У меня другие цифры получаются / находятся.

Статистика в таблице дана скорее для понимания объемов данных, с которыми приходится работать. Данные про объемы графов взяты из публикации Färber M., Rettinger A. Which Knowledge Graph Is Best for Me? //arXiv preprint arXiv:1809.11099. – 2018. Не исключаю, что за время, которое прошло с ее публикации что-то могло сильно поменяться.

Граф знаний в Поиске: построение из нескольких источников

ilvokhin 27 фев 2020 в 17:11

Как правило поисковые компании неохотно делятся (или не делятся совсем) своими графами. Но некоторые предоставляют API, для доступа к данным, например, Google. Есть и свободные графы знаний, которые может скачать любой желающий. В статье упоминаются некоторые из них. Например, Freebase, Wikidata и DBpedia.