Comments 14
Разбор реаьлного текста Ильфа и Петрова поражает!
Очень клево! Казалось бы это совершенно естественное направление развития подобных программ, но лично у меня почему-то онтологии всегда ассоциировались с поисковыми системами или интеграционными шинами.
Интересно, почему в последнем дереве узел «9» является подузлом для «5»?
По ряду причин временные интервалы («с 9 до 5») удобнее представлять цельным поддеревом, а не двумя независимыми друг от друга параллельными поддеревьями.
Например, это удобнее для извлечения информации. При таком способе представления в разборе предложения «Вася работал с 9 до 12 и с 13 до 18» будет два поддерева, по одному на каждый интервал. Если же не группировать каждый интервал в единое поддерево, то по структуре намного сложнее понять, с 9 до 12 работал Вася или с 9 до 18.
Почему вершиной назначен конец интервала, а не начало? Это техническое решение, глубокого смысла в нём нет.
Например, это удобнее для извлечения информации. При таком способе представления в разборе предложения «Вася работал с 9 до 12 и с 13 до 18» будет два поддерева, по одному на каждый интервал. Если же не группировать каждый интервал в единое поддерево, то по структуре намного сложнее понять, с 9 до 12 работал Вася или с 9 до 18.
Почему вершиной назначен конец интервала, а не начало? Это техническое решение, глубокого смысла в нём нет.
Древесные связи убили, может лучше написать древовидные?
Можете назвать какие-нибудь системы, проекты, где это используется?
Мы планируем в ближайшие пару недель выпустить пост о проектах, где это уже используется, и других возможных сценариях.
Пока, если интересно, можете почитать на сайте о продуктах на основе этой технологии (там, правда, коротко)
ABBYY Smart Classifier
ABBYY Intelligent Search SDK
ABBYY InfoExtractor SDK
Пока, если интересно, можете почитать на сайте о продуктах на основе этой технологии (там, правда, коротко)
ABBYY Smart Classifier
ABBYY Intelligent Search SDK
ABBYY InfoExtractor SDK
>> Парсер генерирует деревья семантико-синтаксических разборов предложений (по одному дереву на одно предложение).
…
>> Помимо семантико-синтаксических деревьев парсер ABBYY Compreno возвращает информацию о недревесных связях между их узлами (дополнительные связи между узлами, которые не могут быть представлены в древесной структуре).
Почему деревья, а не графы?
Разве последние не более удобны в данном случае?
Или в действительности это графы, маскирующиеся под деревья для удобства онтоинженеров?
…
>> Помимо семантико-синтаксических деревьев парсер ABBYY Compreno возвращает информацию о недревесных связях между их узлами (дополнительные связи между узлами, которые не могут быть представлены в древесной структуре).
Почему деревья, а не графы?
Разве последние не более удобны в данном случае?
Или в действительности это графы, маскирующиеся под деревья для удобства онтоинженеров?
А как автоматически можно понять из дерева разбора фразы «Онтоинженер Даня сидел и писал пост», что Даня писал пост именно сидя?
Если нужно извлечь из текстов ответы на вопрос, «что именно было написано сидя?»
Если нужно извлечь из текстов ответы на вопрос, «что именно было написано сидя?»
Интересует, каков процент точности построения синтаксического графа? И умеет ли система правильно разбирать подобные предложения?:
Вася зашел на мост, он был доволен
Вася зашел на мост, он был деревянный
Sign up to leave a comment.
Алгоритм извлечения информации в ABBYY Compreno. Часть 1