21 июл 2015 в 17:02

Эврестический POS-tagging русского языка на js

Ожидает приглашения

Здравствуйте!

Собственно, я кратко расскажу о том, как, на мой взгляд, получился весьма неплохой ~~и почти~~ бессловарный POS-tagger на javascript:

PidginSyntax.js;
Применение — «КРАСНОРЕЧИЕ».

Код опирается на лемматизатор с алгоритмом Snowball.

pidginSyntax.js работает так:

Каждое слово в тексте разбивается на лемму и «окончание»
Используя список «окончаний», типичных для каждой части речи
Часто употребляемые слова, некорректно определяемые pidginSyntax' ом, выделены в отдельный список — по большей части, его составляют служебные слова

pidginSyntax отлично определяет причастия, глаголы и прилагательные и чуть хуже — существительные.

Хуже всего определяются наречия, т.к. «слово» довольно трудно отличить от «ново» лишь по морфемам. Поэтому большинство наречий по умолчанию откатываются в существительные, но используя частотный словарь, выделены некоторые предпоследние буквы, типичные для наречий — «ш», «в», «х». Это значительно повышает точность различия pidginSyntax' ом наречий.

Также, код предусматривает игнорирование возвратного суффикса «ся».

Этот код можно использовать для работы, в которой приемлема точность в 70-90% и необходим легкий POS-tagger. Он занимает в 100 раз меньше места, чем корпусные POS-tagger'ы (например) и работает в 5-20 раз быстрее оных.

Хабы:

Я пиарюсь

Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.

Точно не пройдут модерацию:

новости, анонсы и пресс-релизы;
материалы рекламного характера;
вакансии (для этого предназначена «Хабр Карьера»)
вопросы (используйте «Хабр Q&A»);
просьбы о помощи в решении задач;
жалобы на компании и предоставляемые услуги;
куски программного кода без подробных пояснений;
публикации, ранее опубликованные на других сайтах;
односложные материалы (пара абзацев или видеоролик);
статьи, слабо относящиеся к IT-тематике или не относящиеся к ней вовсе;
публикации, нарушающие правила сайта.

С большой вероятностью не пройдут модерацию (или будут отправлены на доработку):

материалы с низким (менее 75%) показателем уникального текста;
публикации без правильно расставленных знаков препинания, со смайликами, с обилием восклицательных знаков, неоправданным выделением слов и предложений;
плохо оформленные публикации (подробнее);