Как стать автором
Обновить

Комментарии 13

Даня, добро пожаловать на хабр.

Compreno — классная штука, но оторопь берёт не только меня, когда начинаешь понимать, сколько ручного труда требует её применение. Очень интересно услышать «истории успеха» внедрения Compreno в жизнь.
Сергей, спасибо!

С историями успеха сложность в том, что даже чисто юридически не обо всем можно рассказывать, сплошные NDA. У меня во второй части поста изначально задумывался кусочек, где я говорю о конкретных проектах. Но выяснилось, что не имеем права — военная клиентская тайна, а ее мы свято бережем.
По своим источникам я знаю одну историю успеха Compreno — это внедрение технологии в Сколково. Жаль, что других историй нам не поведают.
Используется ли подобный разбор семантики при машинном переводе текстов? Есть ли у ABBYY продукт (готовый или находящийся в разработке) по переводу текстов а-ля Google Translate (т.е. не просто отдельные слова переводить, как в Lingvo, а полноценный машинный перевод текста)?
Специальная среда — это protégé, или что-то свое?
Своя среда. Но при разработке мы, конечно, держали в голове имеющиеся инструменты и в чем-то вдохновлялись ими. Кстати, в первой версии поста так и было написано — «специальная среда, похожая на популярный редактор Protégé».
А чем Protege-OWL не устроил?
Protege-OWL — это все-таки отдельно стоящий редактор онтологий. У нас же редактор онтологиий — это небольшая часть довольно сложной системы, в которой можно создавать OWL-модели предметных областей и затем разрабатывать предметно-ориентированные системы извлечения информации с опорой на формализм Compreno, т.е. на представление текста в виде леса синтактико-семантических деревьев. Это такая своеобразная «фабрика моделей извлечения информации», подробнее о ней я расскажу во второй части поста.

В общем, мы решили, что мы достаточно большие и будем строить свой лунапарк с редактором онтологий, блэкджеком и всем остальным.
Ясно. Специфика своей системы…
Лунопарк — это да!)
CRC — это разновидность «кода программы», получается?
Нам посчастливилось поработать как онтоинженерам с Compreno, и поучить его разбирать инженерные тексты (тексты железной инженерии). До «успешного внедрения» нам ещё далеко, но зато и причин скрывать наши результаты за NDA у нас тоже нет. Поэтому можно увидеть две презентации с примерами лингвистического и онтологичекого парсинга, на двух языках:

www.slideshare.net/vvagr/ontology-modelling-of-an-engineering-document-perspectives-of-linguistics-analysis

www.slideshare.net/vvagr/reference-dataextraction
А время учитывается? Например, «Вася ушел», «Вася уходит» и «Вася уйдет» будут отличаться?
Да, разумеется. На картинках всего не отобразить, но на самом деле на деревьях висит еще очень много всякой лингвистической информации. В частности, на узле с «ушел» будет граммема прошедшего времени, на узле с «уходит» — настоящего, на узле с «уйдет» — будущего. И не только время — вид глагола, залог, род и все остальное. Граммем очень много, они выступают такими первичными кирпичиками, с опорой на которые и строится вся синтаксическая структура.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий