Как стать автором
Обновить

Комментарии 14

Разбор реаьлного текста Ильфа и Петрова поражает!
Очень клево! Казалось бы это совершенно естественное направление развития подобных программ, но лично у меня почему-то онтологии всегда ассоциировались с поисковыми системами или интеграционными шинами.
Интересно, почему в последнем дереве узел «9» является подузлом для «5»?
По ряду причин временные интервалы («с 9 до 5») удобнее представлять цельным поддеревом, а не двумя независимыми друг от друга параллельными поддеревьями.
Например, это удобнее для извлечения информации. При таком способе представления в разборе предложения «Вася работал с 9 до 12 и с 13 до 18» будет два поддерева, по одному на каждый интервал. Если же не группировать каждый интервал в единое поддерево, то по структуре намного сложнее понять, с 9 до 12 работал Вася или с 9 до 18.
Почему вершиной назначен конец интервала, а не начало? Это техническое решение, глубокого смысла в нём нет.
А если интервал в виде: «Отсюда и до обеда»?
Древесные связи убили, может лучше написать древовидные?
С непривычки режет слух, но зато сразу понятно, о чем речь. Древовидными называть их тоже странно: сами связи-то никакие не древовидные, просто используются они в древовидных структурах.
Можете назвать какие-нибудь системы, проекты, где это используется?
Мы планируем в ближайшие пару недель выпустить пост о проектах, где это уже используется, и других возможных сценариях.

Пока, если интересно, можете почитать на сайте о продуктах на основе этой технологии (там, правда, коротко)
ABBYY Smart Classifier
ABBYY Intelligent Search SDK
ABBYY InfoExtractor SDK
>> Парсер генерирует деревья семантико-синтаксических разборов предложений (по одному дереву на одно предложение).

>> Помимо семантико-синтаксических деревьев парсер ABBYY Compreno возвращает информацию о недревесных связях между их узлами (дополнительные связи между узлами, которые не могут быть представлены в древесной структуре).

Почему деревья, а не графы?
Разве последние не более удобны в данном случае?
Или в действительности это графы, маскирующиеся под деревья для удобства онтоинженеров?
Интересно, что здесь у вас значит «в действительности»?

Если смотреть широко, то деревья — это и есть графы, один из подвидов.
А тут показаны деревья с дополнительными связями между ветками, то есть они ещё больше графы, чем просто деревья.
А как автоматически можно понять из дерева разбора фразы «Онтоинженер Даня сидел и писал пост», что Даня писал пост именно сидя?
Если нужно извлечь из текстов ответы на вопрос, «что именно было написано сидя?»
Интересует, каков процент точности построения синтаксического графа? И умеет ли система правильно разбирать подобные предложения?:
Вася зашел на мост, он был доволен

Вася зашел на мост, он был деревянный
это называется анафора, и вроде умеет
Зарегистрируйтесь на Хабре, чтобы оставить комментарий