Comments 21
по поводу туманной учености — Вы уверены? Или это только догадка? Может дадите ссылочку на комментарии к Онегину?
Зачем тэг nlp? Имхо НЛП это несколько иное. И слово программирование в аббревиатуре к IT особого отношения не имеет
Зачем тэг nlp? Имхо НЛП это несколько иное. И слово программирование в аббревиатуре к IT особого отношения не имеет
Обработка естественного языка (Natural Language Processing, NLP). Вот такая полисемия.
И верно и не верно. NLP (не НЛП) — это тоже термин и из IT, и из психологии. NLP — Natuarl Language Processing — термин, устоявшийся за многие годы компьютерной лингвистики и области IT, занимающейся извлечением информации (information retrieval). Ну а так же это конечно нейролингвистическое программирование.
Но данный акроним на хабре использовался лишь для топиков, относящихся к компьютерной лингвистике. Так, что если дополнительных аргументов нет — я буду продолжать его использовать. Уж больно удобное сокращение (хоть и двусмысленный иногда).
Но данный акроним на хабре использовался лишь для топиков, относящихся к компьютерной лингвистике. Так, что если дополнительных аргументов нет — я буду продолжать его использовать. Уж больно удобное сокращение (хоть и двусмысленный иногда).
Все правильно!
«Он из Германии туманной учёности привёз плоды»
Если бы слова были расположены, как я привел выше, то можно было бы еще говорить, с большой натяжкой, про туманную учёность, но в данном случае, думаю, Пушкин назвал туманной как раз Германию, но подразумевал не страну в тумане, как Англию, а страну неведанную, мутную, туманную…
Если бы слова были расположены, как я привел выше, то можно было бы еще говорить, с большой натяжкой, про туманную учёность, но в данном случае, думаю, Пушкин назвал туманной как раз Германию, но подразумевал не страну в тумане, как Англию, а страну неведанную, мутную, туманную…
Все это наверняка есть в комментариях к «Евгению Онегину» — нет книжки под рукой.
9 — Он из Германии туманной… — В такой редакции стих связывал образ Германии с романтизмом. Эта связь установилась со времени выхода книги де Сталь «О Германии» (1810). Первоначальная формула «из Германии свободной» (VI, 267) выделяла другие ассоциации: брошюру А. С. Стурдзы (см. с. 20) о Германии для членов Аахенского конгресса, в которой автор обвинял германские (в частности Геттингенский) университеты в распространении в Европе революционного духа (ср. эпиграмму П «Вкруг я Стурдзы хожу» — II, 1, 94) и тираноборческий акт немецкого студента К. Занда, убившего А. Коцебу. Ср. слова П о Занде: «В твоей Германии ты вечной тенью стал» (II, 1, 174).
www.all-art.org/literature/onegin/2.htm
Так что ошибаетесь! Может это и не имеет прямого отношения к теме статьи, но все-таки.
www.all-art.org/literature/onegin/2.htm
Так что ошибаетесь! Может это и не имеет прямого отношения к теме статьи, но все-таки.
Порой задумываюсь о том, что было бы здорово, если бы всё население планеты разговаривало на одном и том же языке — например английском. Быть может тогда ввиду относительной простоты языка и сосредоточению усилий проблема извлечение фактов в частности и анализа текста в целом была бы уже решена.
>Синтаксические структуры (естественного языка в автоматизированных системах общения)
Это только болтик в обшивке космического корабля под названием атоматическое извлечение фактов.
Главное поймите, что МЫ с вами разговариваем на естественном языке, а понимаете ВЫ меня на формальном. А синтаксические структуры это только часть языка.
Это только болтик в обшивке космического корабля под названием атоматическое извлечение фактов.
Главное поймите, что МЫ с вами разговариваем на естественном языке, а понимаете ВЫ меня на формальном. А синтаксические структуры это только часть языка.
А дальше?
Хотела бы узнать, использовали ли вы на практике HMM для борьбы с омонимией?
А кроме омонимии и синонимии эти ми же методами можно решать другие задачи по выявлению особенностей текстовых корпусов?
И если можете привести какие-то доводы, какой из Вами перечисленных методов борьбы с омонимией даёт лучший результат и несколько соображений почему?
Т.е. от чего зависит выбор того или иного метода?
А кроме омонимии и синонимии эти ми же методами можно решать другие задачи по выявлению особенностей текстовых корпусов?
И если можете привести какие-то доводы, какой из Вами перечисленных методов борьбы с омонимией даёт лучший результат и несколько соображений почему?
Т.е. от чего зависит выбор того или иного метода?
Вопрос прямо по существу.
Попробую ответить так же:
Попробую ответить так же:
- Использовал HMM как средство борьбы с омонимией (был в своё время проект на C). Но в связи с недостатком размеченных данных для обучения он слишком часто давал сбои на русском тексте. Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой. Но я пошёл другим путём – омонимию снимаю на более высоком уровне.
- HMM можно использовать как средства выявления ошибок/опечаток, для определения авторства текста (на более-менее больших объёмах), при распознавании текстов можно использовать как средство корректировки ошибок распознавания (те же очепятки). Но сам этим никогда не занимался.
- Лучший результат, конечно, даст разрешение на более высоком уровне с использованием контекста и анализом синтаксиса предложения. Но готовых сравнительных данных нет – модуль в работе (и готов будет не скоро). Но у него есть и свои минусы: скорость работы, сложность самого алгоритма, необходимость описания правил.
Спасибо! Интересно услышать как вы повышали точность
«Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой» — за счет учёта большего числа предшествующих слов, т.е. пошли в триграммы и.т.д.?
«до приемлемой» — можно в личку, какая приемлемая вышла?
«Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой» — за счет учёта большего числа предшествующих слов, т.е. пошли в триграммы и.т.д.?
«до приемлемой» — можно в личку, какая приемлемая вышла?
Вот что делает невнимательность! Фраза была «Подняв БЫ его…»
Я забросил HMM таггер года 2 назад. Тогда корректно разрешалось около 60% неизвестных слов. Знаю, что сейчас HMM таггеры работающие на триграммах достигают правильного разрешения 80-85% неизвестных слов. Для английского – 95-98%.
Текущий алгоритм разрешает около 25-30% неизвестных слов (надеюсь это связано с его недоделанностью, а не с ошибкой в самой идее).
Я забросил HMM таггер года 2 назад. Тогда корректно разрешалось около 60% неизвестных слов. Знаю, что сейчас HMM таггеры работающие на триграммах достигают правильного разрешения 80-85% неизвестных слов. Для английского – 95-98%.
Текущий алгоритм разрешает около 25-30% неизвестных слов (надеюсь это связано с его недоделанностью, а не с ошибкой в самой идее).
Sign up to leave a comment.
Извлечение фактов. Синонимия и омонимия