Как стать автором
Обновить

Комментарии 8

А почему CSV? Более подходящим форматом был бы RDF.
Хочется, чтобы люди могли загрузить датасет в Pandas прямо с ГХ, покрутить его 10 минут и начать работать. RDF на текущий момент будет overkill, хотя на будущее, особенно когда появятся графовые истории — я обязательно посмотрю в сторону этого формата. Так что спасибо за ценное замечание.
Нет никакого смысла описывать семантику языка средствами самого языка. «Материальная сущность», «предмет», «вещество» — не являются «отрезком внеязыковой действительности».
Создаётся упрощённая модель окружающей действительности и слова здесь уже служат скорее человекопонятными искусственными тегами той самой «внеязыковой действительности», чем лингвистическими объектами. Если это работает в точных науках, например физике, почему бы не попробовать такой подход при семантической разметке.
Физическая модель только тегируется при помощи языковой действительности, а верифицируется она природой, а ваша модель языковой действительностью и тегируется и верифицируется. В итоге вы физические сущности делите «на четыре больших класса: живое, места, предметы и вещества» и это деление, очевидно, имеет только языковую природу.

Не желаете ли ради эксперимента запросить исследовательскую лицензию глобальной онтологии Cyc http://opencyc.org и соединить со своими наработками? В качестве бэкенда я бы рекомендовал GRAKN.AI или OpenLink Virtuoso.

Спасибо за подсказку. Не смогу сейчас конструктивно прокомментировать — нужно разобраться что к чему в приведённом вами источнике, но посмотрю обязательно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации