Комментарии 8
А почему CSV? Более подходящим форматом был бы RDF.
0
Нет никакого смысла описывать семантику языка средствами самого языка. «Материальная сущность», «предмет», «вещество» — не являются «отрезком внеязыковой действительности».
+2
Создаётся упрощённая модель окружающей действительности и слова здесь уже служат скорее человекопонятными искусственными тегами той самой «внеязыковой действительности», чем лингвистическими объектами. Если это работает в точных науках, например физике, почему бы не попробовать такой подход при семантической разметке.
0
Физическая модель только тегируется при помощи языковой действительности, а верифицируется она природой, а ваша модель языковой действительностью и тегируется и верифицируется. В итоге вы физические сущности делите «на четыре больших класса: живое, места, предметы и вещества» и это деление, очевидно, имеет только языковую природу.
0
Не желаете ли ради эксперимента запросить исследовательскую лицензию глобальной онтологии Cyc http://opencyc.org и соединить со своими наработками? В качестве бэкенда я бы рекомендовал GRAKN.AI или OpenLink Virtuoso.
+1
Вот ещё релевантный обзор: http://www.semantic-web-journal.net/content/linked-data-quality-dbpedia-freebase-opencyc-wikidata-and-yago-0
+1
Спасибо за подсказку. Не смогу сейчас конструктивно прокомментировать — нужно разобраться что к чему в приведённом вами источнике, но посмотрю обязательно.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Новогодний датасет: открытая семантика русского языка