rg_software Jan 4 2010 at 13:54

Заметки об NLP (часть 7)

6 min

4.2K

Artificial IntelligenceNatural Language Processing*

+19

Comments 17

qmax Jan 5 2010 at 03:53

разве прагматика — это не «интерпретация фраз в контексте целей собеседника»?
у «Э.В.Попова» (1982, ага) именно в атком ракурсе «прагматика» преподносилась.

типа того, что на заявление профессора «а двойных утверждеинй не бывает»
ответ студента «ну да, конечно»
означает вовсе не двойное согласие.

в связи с чем Попов уделял большое внимание «модели собеседника»

qmax Jan 5 2010 at 03:56

другой пример из анекдота.
типа завод будущего, робот-слесарь спрашивает:
— где ключ на двенадцать? /* прагматика: просьба о помощи */
робот прораб отвечает:
— где, где!? в п*зде! /* прагматика: отказ в помощи */

rg_software Jan 5 2010 at 04:29

Это достаточно широкий термин…
Например, то, о чём я говорю, вполне подходит под «Раздел языкознания, изучающий условия использования говорящими языковых знаков».

soshial Jan 6 2010 at 00:12

А комментариев всё меньше и меньше. :(
Наверное, стоило сделать обзоры пошире (в плане рассматриваемых областей) и подлиннее — так легче переварить и больше читателей.

rg_software Jan 6 2010 at 04:07

Просто этот пост ещё на главную не попал. По поводу широты — уже отписался. Впрочем, меня тут как раз упрекали в излишней широте и поверхностности — в противовес глубокому описанию отдельных моделей.

soshial Jan 6 2010 at 13:59

Если я правильно понимаю, вы остановились на синтаксических анализаторах и их проблемах.
Мне было бы интересно, если бы вы сделали хотя бы небольшой обзор различных методов этих анализаторов (с картинки, которую вы привели в предыдущем посте). А потом ещё и примеры этих анализаторов для русского / английского языков. Вот это было бы прекрасно.

Просто дело в том, что я, например, занимаюсь семантическими проблемами: проблемой лексической многозначности (WSD) — а мне мечтать о том, что ваши статьи выберутся за пределы синтаксического уровня и расскажут мне о куче интересных и пока не ведемоых мне вещей, наверно, глупо. =)

Поэтому… ну очень хочется вас попросить рассказать об известных синтаксических анализаторах :)

ps. Всё равно, спасибо вам за то, что хоть кто-то занимается компьютерной лингвистикой и пишет об этом на Хабре. Спасибо вам за это. ;)

rg_software Jan 6 2010 at 14:05

Читайте свежевышедшую часть 8 — там есть про WSD.

По поводу «обзора» — обещать трудно. Дело в том, что я верю в dependency parsing с соответствующим развитием — XDG, синтактико-семантический анализ и далее по программе.

Соответственно, зачем (по моей логике) тратить время на заведомо менее качественные идеи?

soshial Jan 6 2010 at 14:14

Просто, приобретя некий опыт в компьютерной лингвистике, начинаешь понимать, что нету хороших и плохих методов, бывают методы, показавшие плохую, и методы, показавшие сравнительно хорошую эффективность. Но в итоге-то чаще всего бывает так, что выигрывает комбинированный метод.

Поэтому, в комп. лингв. чем шире кругозор, чем больше знаешь методов, тем больше у тебя шансов сделать что-то новое, более крутое.

Всё, от начала и до конца — imho. :)
Согласны?

rg_software Jan 6 2010 at 14:27

Скажем так, отчасти. В настоящее время действительно есть определённый набор методов, выбор из которых определяется личной верой.

Однако за последние годы (десятилетия?) несколько направлений всё-таки «отвалились», и это тоже факт. Например, чистый подход по Хомскому не обрабатывает непроективные конструкции, а их в чешском четверть от общего объёма. Или возьмём нелексикализованные грамматики — в лучшем случае пытаюстся доказать, что они лучше, чем о них раньше думали, но никто не берётся доказывать их «лучшесть» по сравнению с лексикализованными — в общем-то уже договорились, что лексикализация есть добро.

А если собрать все эти особенности воедино, как мне кажется, не так уж много по факту остаётся. Особенно если принять во внимание родственные связи — тот же XDG имеет четырёх близких родственников, стало быть, идеологически они похожи…

soshial Jan 7 2010 at 22:15

В этом-то и суть моей главной мысли — все они близки, и каждый метод может вдруг неожиданно стать снова круче вашего XDG. Важно иметь более полную картину.

ps. не подумайте, что я критикую или возмущаюсь, просто мне грустно. )

rg_software Jan 8 2010 at 04:02

На самом деле это рассуждение почти так же малоосмысленно, как и «что круче — Паскаль или С».
XDG это просто формализм, язык программирования. Его мощь определяется исключительно тем, какого рода конструкции вы на нём будете описывать.

Прочие методы я оцениваю по тривиальным критериям — по тем же, что и язык программирования:
1) выразительные средства (поддерживает ли ту или иную парадигму);
2) качество существующих компиляторов.

«Родственные» к XDG методы не станут «круче» — это всё механизмы одного и того же уровня. Реально круче может быть лишь совершенно иного порядка метод — а я таковых, к сожалению, не знаю. Только чисто статистический подход является действительно другим.

UFO just landed and posted this here

rg_software Jan 6 2010 at 12:23

почему?

UFO just landed and posted this here

excoder Jan 9 2010 at 03:59

Вот единственный известный мне на сегодня синтаксически размеченный корпус русских предложений: ruscorpora.ru/instruction-syntax.html, причем деревья представляют собой именно деревья зависимостей. Кажется, в тексте статьи уместно было бы сказать о нем для полноты картины.

rg_software Jan 9 2010 at 04:36

В комментариях кто-то упоминал этот проект. Не дайте соврать, но «пощупать» его всё равно не дают, так что толку?.. Только «поиск»

excoder Jan 9 2010 at 14:21

Если я правильно понял из информации с их сайта, корпус может быть выдан для некоммерческих исследований с некоторыми оговорками (ознакомление авторов корпуса с их результатами). Так что, для чисто научных целей — вполне сойдет, за отсутствием русскоязычных альтернатив.

Show the best of all time