kdenisk 20 дек 2017 в 15:04

Новогодний датасет: открытая семантика русского языка

7 мин

8.2K

Открытые данные*

+24

Комментарии 8

potan 20 дек 2017 в 19:53

А почему CSV? Более подходящим форматом был бы RDF.

kdenisk 20 дек 2017 в 20:11

Хочется, чтобы люди могли загрузить датасет в Pandas прямо с ГХ, покрутить его 10 минут и начать работать. RDF на текущий момент будет overkill, хотя на будущее, особенно когда появятся графовые истории — я обязательно посмотрю в сторону этого формата. Так что спасибо за ценное замечание.

panvartan 20 дек 2017 в 20:11

Нет никакого смысла описывать семантику языка средствами самого языка. «Материальная сущность», «предмет», «вещество» — не являются «отрезком внеязыковой действительности».

kdenisk 20 дек 2017 в 20:15

Создаётся упрощённая модель окружающей действительности и слова здесь уже служат скорее человекопонятными искусственными тегами той самой «внеязыковой действительности», чем лингвистическими объектами. Если это работает в точных науках, например физике, почему бы не попробовать такой подход при семантической разметке.

panvartan 25 янв 2018 в 18:59

Физическая модель только тегируется при помощи языковой действительности, а верифицируется она природой, а ваша модель языковой действительностью и тегируется и верифицируется. В итоге вы физические сущности делите «на четыре больших класса: живое, места, предметы и вещества» и это деление, очевидно, имеет только языковую природу.

ebt 20 дек 2017 в 23:57

Не желаете ли ради эксперимента запросить исследовательскую лицензию глобальной онтологии Cyc http://opencyc.org и соединить со своими наработками? В качестве бэкенда я бы рекомендовал GRAKN.AI или OpenLink Virtuoso.

ebt 21 дек 2017 в 00:03

Вот ещё релевантный обзор: http://www.semantic-web-journal.net/content/linked-data-quality-dbpedia-freebase-opencyc-wikidata-and-yago-0

kdenisk 21 дек 2017 в 09:27

Спасибо за подсказку. Не смогу сейчас конструктивно прокомментировать — нужно разобраться что к чему в приведённом вами источнике, но посмотрю обязательно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Новогодний датасет: открытая семантика русского языка

Комментарии 8

Публикации

Истории