Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Глокая куздра штеко будланула бокра и курдячит бокрёнка
[('Глокая', 'прил.'), ('куздра', 'сущ.'), ('штеко', 'нареч.'), ('будланула', 'глаг.'), ('бокра', 'сущ.'), ('и', 'союз'), ('курдячит', 'глаг.'), ('бокрёнка', 'сущ.')]
Tagged 8 words in 0.0 sec, 10870 words per sec
Варкалось. Хливкие шорьки. Пырялись по наве, И хрюкотали зелюки, Как мюмзики в мове.
[('Варкалось', 'глаг.'), ('Хливкие', 'прил.'), ('шорьки', 'сущ.'), ('Пырялись', 'глаг.'), ('по', 'предлог'), ('наве', 'сущ.'), ('И', 'союз'), ('хрюкотали', 'глаг.'), ('зелюки', 'сущ.'), ('Как', 'союз'), ('мюмзики', 'сущ.'), ('в', 'предлог'), ('мове', 'сущ.')]
Tagged 13 words in 0.0 sec, 8837 words per sec
Мама мыла раму
[('Мама', 'сущ.'), ('мыла', 'сущ.'), ('раму', 'сущ.')]
— почему выбраны именно эти фичи?
# 1001 — съешьте, 2001 — ьте, 3001 — те
— почему выбран SVM как классификатор? (а не, к примеру, наивный байес)
И предложение. Попробуйте использовать контекст для разметки. Тут несколько вариантов
потея Vmgp---a-p потеть - глагол
, , ,
пью Vmip1s-a-p пить - глагол
киндзмараули Vmis-p-a-e - глагол
, , ,
кричу Vmip1s-a-p кричать - глагол
пернатым Afpmsi пернатый - прилаг.
: - :
гули-гули Vmis-p-a-e - глагол
т.е. чуть получше, но тоже запутался в "киндзмараули" и "гули-гули"
Но наиболее интересно было бы построить pos-tagger с расширенными характеристиками, который предсказывал не только часть речи, но и род, число, падеж и прочие.
Определение части речи слов в русском тексте (POS-tagging) на Python 3