fedor_malyshkin Jun 3 2010 at 01:22

Извлечение фактов. Синонимия и омонимия

2 min

3.4K

Lumber room

+12

Comments 21

porcelanosa Jun 3 2010 at 02:52

по поводу туманной учености — Вы уверены? Или это только догадка? Может дадите ссылочку на комментарии к Онегину?
Зачем тэг nlp? Имхо НЛП это несколько иное. И слово программирование в аббревиатуре к IT особого отношения не имеет

vpbar Jun 3 2010 at 10:33

Обработка естественного языка (Natural Language Processing, NLP). Вот такая полисемия.

AYShestakov Jun 3 2010 at 14:24

Ох, простите, не знала! Спасибо за разъяснения.

Colwin Jul 12 2010 at 11:11

… а также НЛП = Нейро-Лингвистическое Программирование =)

fedor_malyshkin Jun 3 2010 at 10:34

И верно и не верно. NLP (не НЛП) — это тоже термин и из IT, и из психологии. NLP — Natuarl Language Processing — термин, устоявшийся за многие годы компьютерной лингвистики и области IT, занимающейся извлечением информации (information retrieval). Ну а так же это конечно нейролингвистическое программирование.
Но данный акроним на хабре использовался лишь для топиков, относящихся к компьютерной лингвистике. Так, что если дополнительных аргументов нет — я буду продолжать его использовать. Уж больно удобное сокращение (хоть и двусмысленный иногда).

Danov Jun 3 2010 at 10:38

Все правильно!

Danov Jun 3 2010 at 10:39

en.wikipedia.org/wiki/Natural_language_processing

WMTpro Jun 3 2010 at 03:34

«Он из Германии туманной учёности привёз плоды»
Если бы слова были расположены, как я привел выше, то можно было бы еще говорить, с большой натяжкой, про туманную учёность, но в данном случае, думаю, Пушкин назвал туманной как раз Германию, но подразумевал не страну в тумане, как Англию, а страну неведанную, мутную, туманную…

AYShestakov Jun 3 2010 at 04:32

Все это наверняка есть в комментариях к «Евгению Онегину» — нет книжки под рукой.

AYShestakov Jun 3 2010 at 04:47

9 — Он из Германии туманной… — В такой редакции стих связывал образ Германии с романтизмом. Эта связь установилась со времени выхода книги де Сталь «О Германии» (1810). Первоначальная формула «из Германии свободной» (VI, 267) выделяла другие ассоциации: брошюру А. С. Стурдзы (см. с. 20) о Германии для членов Аахенского конгресса, в которой автор обвинял германские (в частности Геттингенский) университеты в распространении в Европе революционного духа (ср. эпиграмму П «Вкруг я Стурдзы хожу» — II, 1, 94) и тираноборческий акт немецкого студента К. Занда, убившего А. Коцебу. Ср. слова П о Занде: «В твоей Германии ты вечной тенью стал» (II, 1, 174).
www.all-art.org/literature/onegin/2.htm

Так что ошибаетесь! Может это и не имеет прямого отношения к теме статьи, но все-таки.

Colwin Jul 12 2010 at 11:14

А Вы уверены, что те, кто толковал творения Пушкина, до конца понимал его идею? =) Тут скорее впору рассматривать оба варианта как имеющие право на жизнь. А также нельзя забывать о том, что данное сочетание могло использоваться и для первого, и для второго случая сразу.

krestjaninoff Jun 3 2010 at 05:58

Порой задумываюсь о том, что было бы здорово, если бы всё население планеты разговаривало на одном и том же языке — например английском. Быть может тогда ввиду относительной простоты языка и сосредоточению усилий проблема извлечение фактов в частности и анализа текста в целом была бы уже решена.

Infanty Jun 3 2010 at 10:10

>Синтаксические структуры (естественного языка в автоматизированных системах общения)
Это только болтик в обшивке космического корабля под названием атоматическое извлечение фактов.

Главное поймите, что МЫ с вами разговариваем на естественном языке, а понимаете ВЫ меня на формальном. А синтаксические структуры это только часть языка.

spanasik Jun 3 2010 at 10:20

А дальше?

fedor_malyshkin Jun 3 2010 at 10:38

Дальше >>>

spanasik Jun 3 2010 at 10:39

О, спасибо!

MoTaJiKa Jun 4 2010 at 22:20

Хотела бы узнать, использовали ли вы на практике HMM для борьбы с омонимией?

А кроме омонимии и синонимии эти ми же методами можно решать другие задачи по выявлению особенностей текстовых корпусов?

И если можете привести какие-то доводы, какой из Вами перечисленных методов борьбы с омонимией даёт лучший результат и несколько соображений почему?
Т.е. от чего зависит выбор того или иного метода?

fedor_malyshkin Jun 4 2010 at 22:43

Вопрос прямо по существу.
Попробую ответить так же:

Использовал HMM как средство борьбы с омонимией (был в своё время проект на C). Но в связи с недостатком размеченных данных для обучения он слишком часто давал сбои на русском тексте. Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой. Но я пошёл другим путём – омонимию снимаю на более высоком уровне.
HMM можно использовать как средства выявления ошибок/опечаток, для определения авторства текста (на более-менее больших объёмах), при распознавании текстов можно использовать как средство корректировки ошибок распознавания (те же очепятки). Но сам этим никогда не занимался.
Лучший результат, конечно, даст разрешение на более высоком уровне с использованием контекста и анализом синтаксиса предложения. Но готовых сравнительных данных нет – модуль в работе (и готов будет не скоро). Но у него есть и свои минусы: скорость работы, сложность самого алгоритма, необходимость описания правил.

MoTaJiKa Jun 4 2010 at 23:18

Спасибо! Интересно услышать как вы повышали точность
«Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой» — за счет учёта большего числа предшествующих слов, т.е. пошли в триграммы и.т.д.?

«до приемлемой» — можно в личку, какая приемлемая вышла?

fedor_malyshkin Jun 4 2010 at 23:44

Вот что делает невнимательность! Фраза была «Подняв БЫ его…»
Я забросил HMM таггер года 2 назад. Тогда корректно разрешалось около 60% неизвестных слов. Знаю, что сейчас HMM таггеры работающие на триграммах достигают правильного разрешения 80-85% неизвестных слов. Для английского – 95-98%.
Текущий алгоритм разрешает около 25-30% неизвестных слов (надеюсь это связано с его недоделанностью, а не с ошибкой в самой идее).

MoTaJiKa Jun 5 2010 at 13:11

Спасибо за ответ! Приблизительно такие цифры я и ожидала увидеть.