Pull to refresh

Comments 74

Лев Толстой, обучая детей грамоте говорил, что в русском языке определить часть речи можно совсем не зная значения ни одного слова в предложении: «Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка»

И он был прав:
Глокая куздра штеко будланула бокра и курдячит бокрёнка
[('Глокая', 'прил.'), ('куздра', 'сущ.'), ('штеко', 'нареч.'), ('будланула', 'глаг.'), ('бокра', 'сущ.'), ('и', 'союз'), ('курдячит', 'глаг.'), ('бокрёнка', 'сущ.')]
Tagged 8 words in 0.0 sec, 10870 words per sec
Первой идеей тоже было проверить на классике:
Варкалось. Хливкие шорьки. Пырялись по наве, И хрюкотали зелюки, Как мюмзики в мове.
[('Варкалось', 'глаг.'), ('Хливкие', 'прил.'), ('шорьки', 'сущ.'), ('Пырялись', 'глаг.'), ('по', 'предлог'), ('наве', 'сущ.'), ('И', 'союз'), ('хрюкотали', 'глаг.'), ('зелюки', 'сущ.'), ('Как', 'союз'), ('мюмзики', 'сущ.'), ('в', 'предлог'), ('мове', 'сущ.')]
Tagged 13 words in 0.0 sec, 8837 words per sec
UFO just landed and posted this here
Указанная вами фраза какое-то отношение ко Льву Николаевичу имеет?
UFO just landed and posted this here
Я пью кофе.
[('Я', 'местоим. сущ.'), ('пью', 'сущ.'), ('кофе', 'сущ.')]
Но не всегда это срабатывает:

Косил косой косой косой.
[('Косил', 'глаг.'), ('косой', 'сущ.'), ('косой', 'сущ.'), ('косой', 'сущ.')]
Tagged 4 words in 0.0 sec, 7182 words per sec
Можно еще обратить внимание на пока еще небольшой, но активно растущий открытый русскоязычный корпус opencorpora.org.
спасибо, гляну обязательно
интересно как быстро это будет работать на больших объемах текста?
Демо выдает приблизительный подсчет производительности в районе 7-10 тыс слов в секунду.
Интересно, как скрипт отреагирует на слова:
Расстегай (из анекдота про прапорщика, ага),
Перестройка,
Непроливайка
и каламбуры из анекдотов про Штирлица типа «Из окна дуло. Штирлиц подошел к окну. Дуло исчезло»
[('Из', 'предлог'), ('окна', 'сущ.'), ('дуло', 'глаг.'), ('Штирлиц', 'сущ.'), ('подошел', 'глаг.'), ('к', 'предлог'), ('окну', 'сущ.'), ('Дуло', 'глаг.'), ('исчезло', 'глаг.')]

фейл на втором дуле)
Что лишний раз показывает, что распознавание текста/речи прямолинейными числодробительными методами не работает. Нужен контекст.
Впрочем, и человек-то не всегда может распознать что сказано или написано, чего уж тут о компьютерах говорить.
Контекст также прекрасно отрабатывается машинными методами. Можно использовать n-gram'ы или даже уже размеченные слова. К примеру, после предлога вероятность следования глагола очень мала.
Можно прикрутить наивного Байеса и прогнать через него паросочетания частей речи (по большому тексту) для дальнейшего определения корректности классификации.
Да. Но можно и SVM тот же использовать для этих целей. Чуть-чуть изменив алгоритм. Гляньте мой коммент ниже.
UFO just landed and posted this here
да, АОТ предоставляет очень хорошие ресурсы для морф. разбора слов. я использовал их словари для лемматизации в другом проекте
как на счет фразы про пьяного, раскосого зайца, срезающего траву с помощью кривой косы?

косой, косой косой косой косил косой.

Хотя и человек такое не сразу осилит…
косой, косой косой косой косил косой.

[('косой', 'сущ.'), ('косой', 'сущ.'), ('косой', 'сущ.'), ('косой', 'сущ.'), ('косил', 'глаг.'), ('косой', 'сущ.')]

вы сломали мне моск
огласите верный ответ, пжлст
запятая меня сбивает с толку
С запятой все понятно — это обращение. А вот дальше больше 2х «косой» объяснить не могу.
Косой (пьяный), косой (раскосый) косой (заяц) косой (кривой) косил косой.
Полезная статья, добавил в избранное, спасибо. Продолжайте цикл статей.
спасибо, постараюсь продолжить
В большинстве случаев работает, но вот почему-то на этом примере не хочет:
Мама мыла раму
[('Мама', 'сущ.'), ('мыла', 'сущ.'), ('раму', 'сущ.')]

я помню в яндексе, на этой фразе тоже крышу сносило (где-то в wordstat )
Почему-то многие программы на этой фразе застревают, TreeTagger тоже неправильно обрабатывает.
mystem предлагает следующую тестовую строку:
«В мурелки шлепают пельсиски. В стакелках светится мычай.»
пельсиски — наречие

А я взял в качестве тест-кейсов русские скороговорки:
  • Карл у Клары украл кораллы, а Клара у Карла украла кларнет.
    кларнет — глагол
  • Курил турка трубку, клевала курка крупку: не кури, турка, трубки, не клюй, курка, крупки!
    клевала — существительное
    кури — существительное
    клюй — существительное
  • Наши поезда — самые поездатые поезда в мире, и никакие другие поезда не перепоездадят наши поезда по поездатости.
    поездатые — глагол

Почти круто, всегда можно немножко доработать :-)
Автор, пара вопросов.

— почему выбраны именно эти фичи?
# 1001 — съешьте, 2001 — ьте, 3001 — те

— почему выбран SVM как классификатор? (а не, к примеру, наивный байес)

И предложение. Попробуйте использовать контекст для разметки. Тут несколько вариантов:
— использовать фичи предыдущего слова для определение метки текущего слова.
пример: для слова «булок» в «съешьте булок»
{'full_suffix': 'булок', '3_suffix': 'лок', '2_suffix': 'ок', 'prev_3_suffix': 'ьте', 'prev_2_suffix': 'те'}

— использовать полученную метку для предыдущего слова чтобы определить метку текущего слова. К примеру, для «съешьте булок»:
{'full_suffix': 'булок', '3_suffix': 'лок', '2_suffix': 'ок', 'prev_tag': 'ГЛ'}

Интересно, как изменится при этом качество.
— почему выбраны именно эти фичи?
# 1001 — съешьте, 2001 — ьте, 3001 — те

Фичи подобраны интуитивно, я взял само слово, два варианта окончания (2 и 3 буквы), два варианта приставки, а также часть речи предыдущих слов. В большинстве случаев, само слово это уже информативная фича, но если оно отсутствовало в обучающей выборке, то на помощь приходят окончания и приставки. Чтобы снять неоднозначность (когда слово может быть несколькими частями речи) в качестве фич добавлены части речи предыдущих слов (пробовал 2 и 3 слова).

— почему выбран SVM как классификатор? (а не, к примеру, наивный байес)

По-моему, выбор классификатора не настолько влияет на производительность, как например, выбор характеристик и данных для обучения. Можно, конечно, поэкспериментировать с различными алгоритмами обучения, но я привык работать с SVM.

И предложение. Попробуйте использовать контекст для разметки. Тут несколько вариантов

Я как раз таки использую части речи предыдущих слов, наверное, плохо в статье описал. Пробовал также использовать и другие характеристики, но экспериментальные результаты были меньше на 1-2%.
А, точно, невнимательно прочел. Простите.

Кстати, есть такая штука как Brill Tagger, который в процессе работы инкрементально корректирует проставленные метки. Интересно, можно ли как-нибудь применить здесь то же самое.
Прочитал про Brill Tagger на вики, интересный концепт. Читаю его статью, возможно, получится ее применить.
Вот придумал пример русской фразы, где ни одно слово не определяется правильно:
«мигало, моргая, веко нарвала»
[('мигало', 'сущ.'), ('моргая', 'прил.'), ('веко', 'нареч.'), ('нарвала', 'глаг.')]
А вот, если угодно, в стихах:
«потея, пью киндзмараули, кричу пернатым: гули-гули»
[('потея', 'сущ.'), ('пью', 'сущ.'), ('киндзмараули', 'глаг.'), ('кричу', 'сущ.'), ('пернатым', 'числ.-прил.'), ('гули', 'глаг.'), ('гули', 'глаг.')]

Хотя, «киндзмараули» — слово не русское. Каюсь. ;)
Думаю, данных для обучения алгоритма было недостаточно для ваших заковыристых примеров :)
Для интереса прогнал через TreeTagger, он выдал следующее:
потея Vmgp---a-p потеть - глагол
, , ,
пью Vmip1s-a-p пить - глагол
киндзмараули Vmis-p-a-e - глагол
, , ,
кричу Vmip1s-a-p кричать - глагол
пернатым Afpmsi пернатый - прилаг.
: - :
гули-гули Vmis-p-a-e - глагол

т.е. чуть получше, но тоже запутался в "киндзмараули" и "гули-гули"
Да и слово «потея» не верно определено. Это не глагол, а деепричастие.
обычно таггеры помечают деепричастие как особую форму глагола
Интерестная статья. Может кто подскажет, какие есть похожие библиотеки для Ruby?
Замечу, что поход к построению модели можно взять из SVMTool. Он вполне хорошо работает для русского.

Еще замечу, что большинство проблем возникает с [около] служебными словами например: и, как, что тот, все и т.д., а не словами типа бокрёнок и куздра.

Кроме того, state-of-the-art для русской морфологии приведен в: Ляшевская О.Н., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. «Оценка методов автоматического анализа текста: морфологические парсеры русского языка». Тогда на Диалоге проводось соревнование по морфологии.

Но наиболее интересно было бы построить pos-tagger с расширенными характеристиками, который предсказывал не только часть речи, но и род, число, падеж и прочие.
Да, я читал статью как раз перед реализацией модуля. Хотел сравнить результаты работы скрипта на тестовом примере из соревнования, но для этого мне нужно еще реализовать токенизатор.

Но наиболее интересно было бы построить pos-tagger с расширенными характеристиками, который предсказывал не только часть речи, но и род, число, падеж и прочие.

я как раз этим планирую заняться следующим этапом
Вот ещё одна статья на эту же тему (POS-tagging, русский язык), с диалога 2011 года:
www.dialog-21.ru/dialog2011/materials/html/58.htm (Serge Sharoff, Joakim Nivre «The proper place of men and machines in language technology Processing Russian without any linguistic knowledge»)
а вы случаем не являетесь участником проекта opencorpora?
Там как раз отсылка к результатам соревнования :-)
Да, спасибо, я посмотрел. Не понятно только зачем нужно было анонимизировать результаты, olive, pine cadet…
Насколько я понимаю, причин было несколько.
Во-первых, это первое соревнование в рамках Диалога и поэтому у организаторов не было опыта организации подобных соревнований.
Во-вторых, это делалось для стимулирования потенциальных участников к участию — это дает свободу получить обратную связь на свою систему, не называя ее.
интересно было бы ознакомиться с принципом работы
основа: правила и словарь Зализняка. Эта система не ставит задачей выявить верную часть речь и другие характеристики. Она даёт все возможные (известные алгоритму) варианты.

То, что делаете Вы, больше похоже на попытку сделать разбор предложения по составу, т.е. синтаксис.

Если идти от статистики, то есть ещё одна система (PhD thesis):
www.cis.hut.fi/projects/morpho/
А давно НацКорпус начал раздавать выборку? Около года назад я искал, чем бы обучить таггер, но так и не нашел.
Пришлось только по словарю работать.
с оф. сайта:
22 февраля 2011 года
Для свободного пользования выложена случайная выборка предложений (с нарушенным порядком) из корпуса со снятой омонимией объёмом 180 тыс. словоупотреблений (90 тыс. – пресса, по 30 тыс. из художественных текстов, законодательства и научных текстов).
А вот проверьте бесподобное:

«Эти типы стали есть на складе.»
Кхм, пардон. Итак:

Эти типы стали есть на складе.
[('Эти', 'местоим. прил.'), ('типы', 'сущ.'), ('стали', 'глаг.'), ('есть', 'глаг.'), ('на', 'предлог'), ('складе', 'сущ.')]
Tagged 6 words in 0.0 sec, 1874 words per sec

Что ж, по мнению программы, «стали» — в данном случае глагол. Окей.
а разве «стали» не глагол в данном примере, по идее его можно заменить на слово «начали». Что сделали? — стали…

вспомогательный глагол «стали», обозначающий начало действия, значение которого выражено последующим глаголом (с) викисловарь.
Даже люди это предложение неправильно понимают, куда уж там железякам :)
Я тоже сначала неверно понял.

СТАЛЬ, -и; ж. [нем. stahl]
Твёрдый ковкий металл серебристо-серого цвета, сплав железа с углеродом и другими упрочняющими элементами.
Ну да :) Только не _неправильно_, а одним из двух равновозможных вариантов.
На самом деле, в оригинале фраза звучит несколько по другому:
«ЭТИ ТИПЫ СТАЛИ ЕСТЬ В ЛИТЕЙНОМ ЦЕХЕ»
она имеет 4 разных смысла и придумал её Илья Сегалович:
forum.searchengines.ru/showpost.php?p=11845&postcount=13
Точнее, Леонид Иомдин (причём, пруфлинк тот же :-))

Чёрт, только я в упор не вижу аж _четырёх_ толкований :(
третий смысл напримет такой — эти (данные) типы (виды) стали (сплав железа) есть (употреблять в пишу) в литейном цехе
тругими словами — данный тип стали можно есть только в литейном цехе…
есть ещё один отличный пример про пьяного, раскосого зайца, срезающего траву с помощью кривой косы:

«Косой, косой косой косой косил косой.»
если говорить о таггерах для русского языка, есть еще такой проект:
nlp.lsi.upc.edu/freeling/,
скоро выходит альфа версия 3.0 (доступна из репозитория devel.cpl.upc.edu/freeling/svn/trunk/)
тесты 4-х дневной давности показали ошибку в 5% если определять только части речи, и 24% если использовать полную информацию (т.е. род, число падеж ...),
онлайн демо скоро будет так же доступно на сайте.
недавно встретилось:

брат брату брат
зомби зомби зомби

задачка на определение «других характеристик»

P.S. Это всё можно отнести к «вырожденным случаям» статистически, конечно. Но учитывать их стоит, хотя бы для понимания сложности задач nlp.
Очень интересно, но я не очень понял по каким свойствам вы классифицировали. Неужели только по оканчанию и слову целиком(при этом получилась такая точность 92%)? Насколько я знаю надо так же использовать связь с предыдущими тегами посредством HMM/CRF или просто пред предсказание…
использовались след. характеристики:
— слово
— окончание (2 и 3 буквы)
— приставка (2 и 3 буквы)
— часть речи предыдущих 3 слов
Я пробовал pymorphy2 натравить на доступную часть НКРЯ (220 тыс токенов) и оценить результаты. Подходы к разметке совпадают не полностью, поэтому некоторые разногласия ошибками не считаются. Ну, например, слова вроде «дальше» в НКРЯ — наречия, а в OpenCorpora (и pymorphy2) — компаративы, но не все компаративы OpenCorpora — это наречия в НКРЯ. Так что 1-к-1 сравнения не получается пока. Но все равно результаты интересные. Если учитывать только части речи, то первый разбор из pymorphy2 правильный в 93-94% случаев, в зависимости от того, как много ошибок мы не учитываем, считая их особенностями подходов НКРЯ и OpenCorpora. При этом pymorphy2 использует только информацию о частоте различных разборов для отдельных слов (оцененную по OpenCorpora), а контекст не использует совсем. Так что часть речи вполне можно определять только по самому слову и получать точность порядка 92%. Без информации о частотности разборов выходит где-то 87% правильных частей речи.

Другое дело, что кроме части речи есть еще падеж, число и т.д., и вот для полного набора граммем, кажется, без контекста уже трудно. Там pymorphy2 выдает 78-80% правильных разборов с использованием частот и 72-73% — без (опять же, в зависимости от того, как оценивать).
Sign up to leave a comment.

Articles