Irokez Aug 10 2011 at 00:28

Определение части речи слов в русском тексте (POS-tagging) на Python 3

9 min

94K

Python *Natural Language Processing *

+80

Comments 74

asArtem Aug 10 2011 at 01:01

Лев Толстой, обучая детей грамоте говорил, что в русском языке определить часть речи можно совсем не зная значения ни одного слова в предложении: «Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка»

Irokez Aug 10 2011 at 01:03

И он был прав:

Глокая куздра штеко будланула бокра и курдячит бокрёнка

[('Глокая', 'прил.'), ('куздра', 'сущ.'), ('штеко', 'нареч.'), ('будланула', 'глаг.'), ('бокра', 'сущ.'), ('и', 'союз'), ('курдячит', 'глаг.'), ('бокрёнка', 'сущ.')]

Tagged 8 words in 0.0 sec, 10870 words per sec

+18

Kinday Aug 10 2011 at 13:16

Первой идеей тоже было проверить на классике:

Варкалось. Хливкие шорьки. Пырялись по наве, И хрюкотали зелюки, Как мюмзики в мове. [('Варкалось', 'глаг.'), ('Хливкие', 'прил.'), ('шорьки', 'сущ.'), ('Пырялись', 'глаг.'), ('по', 'предлог'), ('наве', 'сущ.'), ('И', 'союз'), ('хрюкотали', 'глаг.'), ('зелюки', 'сущ.'), ('Как', 'союз'), ('мюмзики', 'сущ.'), ('в', 'предлог'), ('мове', 'сущ.')] Tagged 13 words in 0.0 sec, 8837 words per sec

UFO just landed and posted this here

MikeOzornin Aug 10 2011 at 01:08

Указанная вами фраза какое-то отношение ко Льву Николаевичу имеет?

UFO just landed and posted this here

win0err Aug 10 2011 at 14:13

Я пью кофе.
[('Я', 'местоим. сущ.'), ('пью', 'сущ.'), ('кофе', 'сущ.')]

win0err Aug 10 2011 at 14:13

пью — глагол

denis_g Aug 10 2011 at 18:35

Но не всегда это срабатывает:

Косил косой косой косой.

[('Косил', 'глаг.'), ('косой', 'сущ.'), ('косой', 'сущ.'), ('косой', 'сущ.')]

Tagged 4 words in 0.0 sec, 7182 words per sec

Donskoy Aug 10 2011 at 01:20

Можно еще обратить внимание на пока еще небольшой, но активно растущий открытый русскоязычный корпус opencorpora.org.

Irokez Aug 10 2011 at 01:44

спасибо, гляну обязательно

AlienZzzz Aug 10 2011 at 05:16

интересно как быстро это будет работать на больших объемах текста?

Irokez Aug 10 2011 at 11:29

Демо выдает приблизительный подсчет производительности в районе 7-10 тыс слов в секунду.

DanXai Aug 10 2011 at 06:25

Интересно, как скрипт отреагирует на слова:
Расстегай (из анекдота про прапорщика, ага),
Перестройка,
Непроливайка
и каламбуры из анекдотов про Штирлица типа «Из окна дуло. Штирлиц подошел к окну. Дуло исчезло»

tibalt Aug 10 2011 at 08:09

[('Из', 'предлог'), ('окна', 'сущ.'), ('дуло', 'глаг.'), ('Штирлиц', 'сущ.'), ('подошел', 'глаг.'), ('к', 'предлог'), ('окну', 'сущ.'), ('Дуло', 'глаг.'), ('исчезло', 'глаг.')]

фейл на втором дуле)

Beholder Aug 10 2011 at 09:19

Что лишний раз показывает, что распознавание текста/речи прямолинейными числодробительными методами не работает. Нужен контекст.
Впрочем, и человек-то не всегда может распознать что сказано или написано, чего уж тут о компьютерах говорить.

lightcaster Aug 10 2011 at 10:19

Контекст также прекрасно отрабатывается машинными методами. Можно использовать n-gram'ы или даже уже размеченные слова. К примеру, после предлога вероятность следования глагола очень мала.

RomanL Aug 10 2011 at 10:45

Можно прикрутить наивного Байеса и прогнать через него паросочетания частей речи (по большому тексту) для дальнейшего определения корректности классификации.

lightcaster Aug 10 2011 at 11:01

Да. Но можно и SVM тот же использовать для этих целей. Чуть-чуть изменив алгоритм. Гляньте мой коммент ниже.

UFO just landed and posted this here

Irokez Aug 10 2011 at 15:05

да, АОТ предоставляет очень хорошие ресурсы для морф. разбора слов. я использовал их словари для лемматизации в другом проекте

smind Aug 10 2011 at 09:22

как на счет фразы про пьяного, раскосого зайца, срезающего траву с помощью кривой косы?

косой, косой косой косой косил косой.

Хотя и человек такое не сразу осилит…

smind Aug 10 2011 at 09:28

косой, косой косой косой косил косой.

[('косой', 'сущ.'), ('косой', 'сущ.'), ('косой', 'сущ.'), ('косой', 'сущ.'), ('косил', 'глаг.'), ('косой', 'сущ.')]

chuma3 Aug 10 2011 at 10:02

вы сломали мне моск
огласите верный ответ, пжлст
запятая меня сбивает с толку

snizovtsev Aug 10 2011 at 11:54

С запятой все понятно — это обращение. А вот дальше больше 2х «косой» объяснить не могу.

-1

Bytamine Aug 10 2011 at 12:35

Почему обращение?

Bytamine Aug 10 2011 at 12:34

Косой (пьяный), косой (раскосый) косой (заяц) косой (кривой) косил косой.

chuma3 Aug 10 2011 at 12:56

10X

sphinks Aug 10 2011 at 09:23

Полезная статья, добавил в избранное, спасибо. Продолжайте цикл статей.

Irokez Aug 10 2011 at 11:50

спасибо, постараюсь продолжить

Aminuofu Aug 10 2011 at 09:24

В большинстве случаев работает, но вот почему-то на этом примере не хочет:

Мама мыла раму
[('Мама', 'сущ.'), ('мыла', 'сущ.'), ('раму', 'сущ.')]

HomoErectus Aug 10 2011 at 10:04

я помню в яндексе, на этой фразе тоже крышу сносило (где-то в wordstat )

Irokez Aug 10 2011 at 11:34

Почему-то многие программы на этой фразе застревают, TreeTagger тоже неправильно обрабатывает.

HomoErectus Aug 10 2011 at 10:02

Программа знает русский язык лучше меня.

javascript Aug 10 2011 at 10:44

mystem предлагает следующую тестовую строку:
«В мурелки шлепают пельсиски. В стакелках светится мычай.»
пельсиски — наречие

А я взял в качестве тест-кейсов русские скороговорки:

Карл у Клары украл кораллы, а Клара у Карла украла кларнет.
кларнет — глагол
Курил турка трубку, клевала курка крупку: не кури, турка, трубки, не клюй, курка, крупки!
клевала — существительное
кури — существительное
клюй — существительное
Наши поезда — самые поездатые поезда в мире, и никакие другие поезда не перепоездадят наши поезда по поездатости.
поездатые — глагол

Почти круто, всегда можно немножко доработать :-)

lightcaster Aug 10 2011 at 10:45

Автор, пара вопросов.

— почему выбраны именно эти фичи?
# 1001 — съешьте, 2001 — ьте, 3001 — те

— почему выбран SVM как классификатор? (а не, к примеру, наивный байес)

И предложение. Попробуйте использовать контекст для разметки. Тут несколько вариантов:
— использовать фичи предыдущего слова для определение метки текущего слова.
пример: для слова «булок» в «съешьте булок»
{'full_suffix': 'булок', '3_suffix': 'лок', '2_suffix': 'ок', 'prev_3_suffix': 'ьте', 'prev_2_suffix': 'те'}

— использовать полученную метку для предыдущего слова чтобы определить метку текущего слова. К примеру, для «съешьте булок»:
{'full_suffix': 'булок', '3_suffix': 'лок', '2_suffix': 'ок', 'prev_tag': 'ГЛ'}

Интересно, как изменится при этом качество.

Irokez Aug 10 2011 at 11:44

— почему выбраны именно эти фичи?
# 1001 — съешьте, 2001 — ьте, 3001 — те

Фичи подобраны интуитивно, я взял само слово, два варианта окончания (2 и 3 буквы), два варианта приставки, а также часть речи предыдущих слов. В большинстве случаев, само слово это уже информативная фича, но если оно отсутствовало в обучающей выборке, то на помощь приходят окончания и приставки. Чтобы снять неоднозначность (когда слово может быть несколькими частями речи) в качестве фич добавлены части речи предыдущих слов (пробовал 2 и 3 слова).

— почему выбран SVM как классификатор? (а не, к примеру, наивный байес)

По-моему, выбор классификатора не настолько влияет на производительность, как например, выбор характеристик и данных для обучения. Можно, конечно, поэкспериментировать с различными алгоритмами обучения, но я привык работать с SVM.

И предложение. Попробуйте использовать контекст для разметки. Тут несколько вариантов

Я как раз таки использую части речи предыдущих слов, наверное, плохо в статье описал. Пробовал также использовать и другие характеристики, но экспериментальные результаты были меньше на 1-2%.

lightcaster Aug 10 2011 at 18:28

А, точно, невнимательно прочел. Простите.

Кстати, есть такая штука как Brill Tagger, который в процессе работы инкрементально корректирует проставленные метки. Интересно, можно ли как-нибудь применить здесь то же самое.

Irokez Aug 10 2011 at 18:55

Прочитал про Brill Tagger на вики, интересный концепт. Читаю его статью, возможно, получится ее применить.

Straight Aug 10 2011 at 11:11

Вот придумал пример русской фразы, где ни одно слово не определяется правильно:
«мигало, моргая, веко нарвала»
[('мигало', 'сущ.'), ('моргая', 'прил.'), ('веко', 'нареч.'), ('нарвала', 'глаг.')]

Straight Aug 10 2011 at 11:36

А вот, если угодно, в стихах:
«потея, пью киндзмараули, кричу пернатым: гули-гули»
[('потея', 'сущ.'), ('пью', 'сущ.'), ('киндзмараули', 'глаг.'), ('кричу', 'сущ.'), ('пернатым', 'числ.-прил.'), ('гули', 'глаг.'), ('гули', 'глаг.')]

Хотя, «киндзмараули» — слово не русское. Каюсь. ;)

Irokez Aug 10 2011 at 11:49

Думаю, данных для обучения алгоритма было недостаточно для ваших заковыристых примеров :)
Для интереса прогнал через TreeTagger, он выдал следующее:

потея Vmgp---a-p потеть - глагол

, , ,

пью Vmip1s-a-p пить - глагол

киндзмараули Vmis-p-a-e  - глагол

, , ,

кричу Vmip1s-a-p кричать - глагол

пернатым Afpmsi пернатый - прилаг.

: - :

гули-гули Vmis-p-a-e  - глагол



т.е. чуть получше, но тоже запутался в "киндзмараули" и "гули-гули"

Flex25 Aug 10 2011 at 14:02

Да и слово «потея» не верно определено. Это не глагол, а деепричастие.

Irokez Aug 10 2011 at 14:37

обычно таггеры помечают деепричастие как особую форму глагола

vadim2 Aug 10 2011 at 11:12

Интерестная статья. Может кто подскажет, какие есть похожие библиотеки для Ruby?

AndreyMorozov Aug 11 2011 at 19:07

liblinear-ruby-swig

kzn Aug 10 2011 at 11:46

Замечу, что поход к построению модели можно взять из SVMTool. Он вполне хорошо работает для русского.

Еще замечу, что большинство проблем возникает с [около] служебными словами например: и, как, что тот, все и т.д., а не словами типа бокрёнок и куздра.

Кроме того, state-of-the-art для русской морфологии приведен в: Ляшевская О.Н., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. «Оценка методов автоматического анализа текста: морфологические парсеры русского языка». Тогда на Диалоге проводось соревнование по морфологии.

Но наиболее интересно было бы построить pos-tagger с расширенными характеристиками, который предсказывал не только часть речи, но и род, число, падеж и прочие.

Irokez Aug 10 2011 at 11:55

Да, я читал статью как раз перед реализацией модуля. Хотел сравнить результаты работы скрипта на тестовом примере из соревнования, но для этого мне нужно еще реализовать токенизатор.

Но наиболее интересно было бы построить pos-tagger с расширенными характеристиками, который предсказывал не только часть речи, но и род, число, падеж и прочие.

я как раз этим планирую заняться следующим этапом

bocharov Aug 10 2011 at 11:58

Вот ещё одна статья на эту же тему (POS-tagging, русский язык), с диалога 2011 года:
www.dialog-21.ru/dialog2011/materials/html/58.htm (Serge Sharoff, Joakim Nivre «The proper place of men and machines in language technology Processing Russian without any linguistic knowledge»)

Irokez Aug 10 2011 at 12:00

а вы случаем не являетесь участником проекта opencorpora?

bocharov Aug 10 2011 at 12:02

являюсь

kzn Aug 10 2011 at 12:03

Там как раз отсылка к результатам соревнования :-)

Irokez Aug 10 2011 at 12:34

Да, спасибо, я посмотрел. Не понятно только зачем нужно было анонимизировать результаты, olive, pine cadet…

kzn Aug 10 2011 at 12:43

Насколько я понимаю, причин было несколько.
Во-первых, это первое соревнование в рамках Диалога и поэтому у организаторов не было опыта организации подобных соревнований.
Во-вторых, это делалось для стимулирования потенциальных участников к участию — это дает свободу получить обратную связь на свою систему, не называя ее.

DKey Aug 10 2011 at 13:06

посмотрите здесь, если интересно получить больше характеристик:
semanticanalyzer.info/blog/demo/

Irokez Aug 10 2011 at 14:57

интересно было бы ознакомиться с принципом работы

DKey Aug 10 2011 at 15:48

основа: правила и словарь Зализняка. Эта система не ставит задачей выявить верную часть речь и другие характеристики. Она даёт все возможные (известные алгоритму) варианты.

То, что делаете Вы, больше похоже на попытку сделать разбор предложения по составу, т.е. синтаксис.

Если идти от статистики, то есть ещё одна система (PhD thesis):
www.cis.hut.fi/projects/morpho/

ksurent Aug 10 2011 at 16:41

А давно НацКорпус начал раздавать выборку? Около года назад я искал, чем бы обучить таггер, но так и не нашел.
Пришлось только по словарю работать.

Irokez Aug 10 2011 at 17:00

с оф. сайта:

22 февраля 2011 года
Для свободного пользования выложена случайная выборка предложений (с нарушенным порядком) из корпуса со снятой омонимией объёмом 180 тыс. словоупотреблений (90 тыс. – пресса, по 30 тыс. из художественных текстов, законодательства и научных текстов).

darnley Aug 10 2011 at 21:03

А вот проверьте бесподобное:

«Эти типы стали есть на складе.»

darnley Aug 10 2011 at 21:05

Кхм, пардон. Итак:

Эти типы стали есть на складе.
[('Эти', 'местоим. прил.'), ('типы', 'сущ.'), ('стали', 'глаг.'), ('есть', 'глаг.'), ('на', 'предлог'), ('складе', 'сущ.')]
Tagged 6 words in 0.0 sec, 1874 words per sec

Что ж, по мнению программы, «стали» — в данном случае глагол. Окей.

smind Aug 10 2011 at 22:20

а разве «стали» не глагол в данном примере, по идее его можно заменить на слово «начали». Что сделали? — стали…

вспомогательный глагол «стали», обозначающий начало действия, значение которого выражено последующим глаголом (с) викисловарь.

Maccimo Aug 11 2011 at 06:39

Даже люди это предложение неправильно понимают, куда уж там железякам :)
Я тоже сначала неверно понял.

СТАЛЬ, -и; ж. [нем. stahl]
Твёрдый ковкий металл серебристо-серого цвета, сплав железа с углеродом и другими упрочняющими элементами.

darnley Aug 11 2011 at 07:23

Ну да :) Только не _неправильно_, а одним из двух равновозможных вариантов.

ZByte Aug 11 2011 at 12:45

На самом деле, в оригинале фраза звучит несколько по другому:
«ЭТИ ТИПЫ СТАЛИ ЕСТЬ В ЛИТЕЙНОМ ЦЕХЕ»
она имеет 4 разных смысла и придумал её Илья Сегалович:
forum.searchengines.ru/showpost.php?p=11845&postcount=13

darnley Aug 11 2011 at 12:51

Точнее, Леонид Иомдин (причём, пруфлинк тот же :-))

Чёрт, только я в упор не вижу аж _четырёх_ толкований :(

smind Aug 11 2011 at 13:15

третий смысл напримет такой — эти (данные) типы (виды) стали (сплав железа) есть (употреблять в пишу) в литейном цехе
тругими словами — данный тип стали можно есть только в литейном цехе…

ZByte Aug 11 2011 at 13:38

есть ещё один отличный пример про пьяного, раскосого зайца, срезающего траву с помощью кривой косы:

«Косой, косой косой косой косил косой.»

Error_403_Forbidden Feb 15 2012 at 15:15

запятая не нужна

ZByte Aug 11 2011 at 12:31

если говорить о таггерах для русского языка, есть еще такой проект:
nlp.lsi.upc.edu/freeling/,
скоро выходит альфа версия 3.0 (доступна из репозитория devel.cpl.upc.edu/freeling/svn/trunk/)
тесты 4-х дневной давности показали ошибку в 5% если определять только части речи, и 24% если использовать полную информацию (т.е. род, число падеж ...),
онлайн демо скоро будет так же доступно на сайте.

DKey Aug 11 2011 at 16:11

недавно встретилось:

брат брату брат
зомби зомби зомби

задачка на определение «других характеристик»

P.S. Это всё можно отнести к «вырожденным случаям» статистически, конечно. Но учитывать их стоит, хотя бы для понимания сложности задач nlp.

yuk Aug 14 2011 at 16:16

Очень интересно, но я не очень понял по каким свойствам вы классифицировали. Неужели только по оканчанию и слову целиком(при этом получилась такая точность 92%)? Насколько я знаю надо так же использовать связь с предыдущими тегами посредством HMM/CRF или просто пред предсказание…

Irokez Aug 14 2011 at 16:19

использовались след. характеристики:
— слово
— окончание (2 и 3 буквы)
— приставка (2 и 3 буквы)
— часть речи предыдущих 3 слов

kmike Apr 14 2014 at 02:57

Я пробовал pymorphy2 натравить на доступную часть НКРЯ (220 тыс токенов) и оценить результаты. Подходы к разметке совпадают не полностью, поэтому некоторые разногласия ошибками не считаются. Ну, например, слова вроде «дальше» в НКРЯ — наречия, а в OpenCorpora (и pymorphy2) — компаративы, но не все компаративы OpenCorpora — это наречия в НКРЯ. Так что 1-к-1 сравнения не получается пока. Но все равно результаты интересные. Если учитывать только части речи, то первый разбор из pymorphy2 правильный в 93-94% случаев, в зависимости от того, как много ошибок мы не учитываем, считая их особенностями подходов НКРЯ и OpenCorpora. При этом pymorphy2 использует только информацию о частоте различных разборов для отдельных слов (оцененную по OpenCorpora), а контекст не использует совсем. Так что часть речи вполне можно определять только по самому слову и получать точность порядка 92%. Без информации о частотности разборов выходит где-то 87% правильных частей речи.

Другое дело, что кроме части речи есть еще падеж, число и т.д., и вот для полного набора граммем, кажется, без контекста уже трудно. Там pymorphy2 выдает 78-80% правильных разборов с использованием частот и 72-73% — без (опять же, в зависимости от того, как оценивать).