Pull to refresh

Comments 14

Все равно это не естественный язык, а язык программирования, синтаксис которого имитирует естественный. Особенно криво это выглядит в этой куче дефисных выражений is-a, Every-single-thing и т.д. Сомневаюсь что он поймет даже примитивные фразы типа Apple isn't a vegetable, хотя в онтологии есть соответствующий формализм.

Поэтому о естественном языке ИМХО говорить рановато.
Выражение is not он понимает.
Насчет дефисов согласен; причем, в одних случаях выражения пишутся без дефисов (is a), в других — с дефисами.
Понятно, что это не вполне естественный язык; главная «фишка», которую я хотел отразить, состоит в том, что с таким редактором гораздо проще работать, скажем, инженеру, который много знает о предметной области, но ничего не знает об онтологиях. Научить такого инженера работать в Protege или TopBraid Composer'е было бы сложнее.
Только у меня возник вопрос о паре фраз в самом начале?
Every customer is a organization.
Every supplier is a organization.
Я думаю, что, согласно грамматике английского, правильно всё-таки «Every customer is an organization. Every supplier is an organization».

Тысячи подобных грамматических мелочей усложняют создание чего-либо, о чём можно было бы сказать «на естественном языке».
Да, можно написать и an — редактор позволяет. Согласен с вами, так правильно.
Если бы вставить распознавание речи, скажем от Google, то он сам скорее всего подставит правильный артикль. Проблемы со многими грамматическими мелочами уже решены в приложениях других разработчиков и нет необходимости делать все с нуля.
А можно пояснить, что дальше делать с полученным файлами онтологии? Для чего они создаются?
Простейший пример использования — это возможность машине вывода
«задавать вопросы» на тему информации, содержащейся в нашей онтологии.
Ага, типа Watson-а, который американцев в Свою игру обыграл, а теперь где-то в больнице трудится, интересно кстати, в каком формате там хранятся знания.
А вообще вопрос хоть и с виду очень простой, но помоему до сих пор придумано (а тем более реализовано) не так много практических примеров использования онтологий. Из запомнившегося — сайт BBC со статистикой ЧМ по футболу 2010 года — www.ontotext.com/news/bigowlim-3.3-released-used-by-the-bbc-for-the-football-world-cup news.bbc.co.uk/sport2/hi/football/world_cup_2010/default.stm
Очень хотел посмотреть, что же из себя представляет фреймворк в целом (Ontorion), но к сожалению здесь 404.
Не знаете случаем, они просто переехали или решили закрыть исходный код?
Насчет исходного кода — задам им вопрос.
Общую информацию об Ontorion можно посмотреть здесь: http://www.cognitum.eu/semantics/Ontorion/
Мне они также давали доступ в консоль. У фреймворка есть веб-интерфейс, в котором можно делать все то же самое, что в редакторе.
Получил ответ от разработчиков. Говорят, что сервер онтологий Ontorion будет предоставляться в основном облаке (хотя, видимо, будет возможна и локальная установка при необходимости), и является проприетарным, так что исходный код открывать не будут. Однако, планируют опубликовать его API.
Эх, года полтора назад оставил эту тематику и спустился с НИР на землю, а как погляжу, воз и ныне там — все пытаются редактор для онтологий допилить (Protege кстати ничего так был, из него всего-то надо было баги поизгонять, да над интуитивностью и юзабилити интерфейса поработать), не говря уже о хоть каком-то интересном практическом применении. Неужели все так тускло? У нас кстати были попытки с естественного русского языка что-то вытащить, а тут всего-лишь English, да еще и Controlled. Как по мне пользователю если и нужен редактор, то не такого уровня — замучаешься все сущности перчислять через is-a, идеальным было бы натравить робота на билиотеку какую нибудь, а потом вручную верифицировать вытащенные триплеты — над этим и пытались работать, но все время не хватало то времеи, то денег, то умения.
А в рамках какого проекта вы этим занимались, если не секрет? (в смысле, вытаскиванием с естественного русского языка)
У нас сейчас идет проект, в котором, на самом деле, хотелось бы прийти к чему-то подобному. В качестве библиотеки-основы рассматривается JORD RDL, вопрос сейчас стоит в выборе инструмента для работы.
Мы пытались работать с библиотекой RCO (Russian Context Optimizer) — пытались вытаскивать триплеты с помощью её фреймовых моделей. Лично к сожалению с данной библиотекой не работал, но на выходе результаты не очень впечатляющие — то ли версия у нас была слишком старая, то ли руки не оттуда, но триплетов из текста она вытаскивала меньше чем хотелось бы.
Only those users with full accounts are able to leave comments. Log in, please.