Pull to refresh

Comments 5

Возможно, кроме WordNet стоит упомянуть FrameNet (https://framenet.icsi.berkeley.edu/), который фактически представляет собой еще одну разновидность семантических моделей (похоже на дистрибутивные, но не совсем https://www.researchgate.net/publication/266970167_Leveraging_Frame_Semantics_and_Distributional_Semantics_for_Unsupervised_Semantic_Slot_Induction_in_Spoken_Dialogue_Systems), по которому есть довольно много публикаций и наработок, и который можно использовать посредством NLTK (https://www.nltk.org/howto/framenet.html).

Очень интересное сравнение! Кажется, FrameNet как лексическая база содержит даже чуть больше лингвистической информации про сочетаемость и употребление слов в предложении, зато WordNet как тезаурус включает больше информации о семантических отношениях между словами.

Спасибо за ссылку, будет полезно почитать про использование FrameNet в задачах обработки текстов.

Всегда пожалуйста!) На мой взгляд WordNet и FrameNet интересны в первую очередь своей проработанностью (если так можно выразиться), благодаря довольно большому количеству публикаций, примеров использования, программных средств и т.п. можно избежать изобретения велосипеда (хотя иногда этот процесс весьма увлекателен и полезен) и набивания шишек на своей голове)))

Все подобные статьи в рунете используют английский язык. Почему бы при написании статьи не использовать русский? Или вы копируете английские статьи под кальку? Как сделать тоже самое для русского? Какая практическая ценность данных инструментов?

Сразу хочу подчеркнуть, что все статьи в нашем блоге являются полностью оригинальными и написаны сотрудниками компании Unistar Digital. Если в будущем мы будем брать за основу существующие английские статьи, то обязательно поставим метку «Перевод» и укажем источник, как делают все авторы на Хабре.

Вопрос о выборе материала – русский или английский – является действительно интересным и важным. Дело в том, что для русского языка существует аналогичный ресурс – тезаурус RuWordNet, но мы сознательно описали в статье именно тезаурус WordNet для английского языка. На это есть две причины.

Во-первых, тезаурус WordNet выложен в открытый доступ и может быть свободно использован, тогда как тезаурус RuWordNet доступен только для некоммерческого использования, для получения xml-файлов с данными тезауруса нужно писать на почту ответственным лицам.

Во-вторых, для подсчета семантического сходства по тезаурусу WordNet существует готовый пакет WordNet библиотеки NLTK, о котором мы писали в статье. Достаточно импортировать его, и далее с помощью уже готовых функций пользоваться тезаурусом. Для тезауруса RuWordNet, к сожалению, не существует готовых модулей, которыми мы могли бы поделиться с читателями. Если вас заинтересовала данная тема, можете почитать об использовании тезауруса РуТез для задачи определения парафраз в статье «RuThes Thesaurus in Detecting Russian Paraphrases». Тезаурус RuWordNet является более новой версией тезауруса РуТез, только отношения в нем больше похожи на WordNet. Для него можно посчитать все меры, написав питоновские программки.

Таким образом, в данной статье мы хотели показать, как можно использовать уже готовый инструмент для определения семантической близости слов, который доступен для коммерческого использования. Поэтому выбрали тезаурус для английского языка. Мы подумаем о том, чтобы в следующих статьях разработать и описать инструмент для работы с тезаурусом русского языка, однако возможность его коммерческого использования все же остается под вопросом.

Sign up to leave a comment.