rg_software Jan 3 2010 at 16:13

Заметки об NLP (часть 6)

6 min

3.8K

Natural Language Processing * Artificial Intelligence

+38

Comments 24

nayjest Jan 3 2010 at 17:58

С нетерпением жду продолжения! И не обращайте внимания на популярность топиков, как по мне — сейчас самое интересное началось!

gbezyuk Jan 3 2010 at 19:22

Поддерживаю.

qmax Jan 4 2010 at 00:42

да и на карму автору тоже стоит посмотреть :)

на фоне топиков типа «поработит ли нас искуственный разум», эта серия статей весьма конструктивна.

rg_software Jan 4 2010 at 01:37

ОК, оставим этот вопрос — я мимоходом упомянул, не будем сосредотачиваться на мелочах в то время как есть темы посерьёзнее и поинтереснее :)

Antigluk Jan 3 2010 at 20:14

Интересная серия статей.
Популярность — думаю, из-за частоты выхода статей. по 2-3 статьи в день думаю, многовато.
А статьи занимательные, да. С удовольствием читаю.

UFO landed and left these words here

SergeyProkofiev Jan 4 2010 at 00:14

Совсем не утомили, наоборот, нечего размазывать по «раз в неделю».

varagian Jan 4 2010 at 00:50

Сейчас заметил, что во время прочтения цикла и перехода по ссылкам пальцы застыли на ctrl+D

qmax Jan 4 2010 at 01:06

а «добавить в избранное» на самом хабре не устраивает?

qmax Jan 4 2010 at 01:05

вродебы где-то у автора проскакивала идея способа обобщения правил,
позволяющего объединить в один кластер слова
«eat», «eats», «eated», «will eat»,
и далее вплоть до того, что
dim syn {in: {root} out: {subj obj adv*}}} указывается для всех переходных глаголов
dim syn {in: {root} out: {subj adv*}}} для всех переходных глаголов

без кластеризации пришлось бы описывать грамматические свойства для всех возможных словоформ языка.
например, для славянских, это будет неимовернейше дофигищща.

rg_software Jan 4 2010 at 01:36

В XDK вроде бы есть какая-то рудиментарная поддержка морфологии, но для случаев сложнее английского это точно не работает.
По поводу обобщений «eats» с формами — не помню, но верю. Классы слов («переходные», «непереходные») точно поддерживаются.

А вот по поводу «дофигищща» — как раз это меня не напрягает.
Допустим, есть скрипт, который на основании вывода морф. анализатора генерирует требуемые правила.
Реально для разбора одного предложения нужны только правила, относящиеся к словам данного предложения.

Получается, что для разбора фразы нужно всего-то 5-10 правил. (Понимаю, при этом будут вопросы к производительности, но это уже другая тема).

qmax Jan 4 2010 at 01:42

ну в принципе то да.
если все слова фразы в явном виде входят в базу правил,
то поиск этих правил проблемы не создаст.

qmax Jan 4 2010 at 01:16

ну и кстати, по части морфологии,
со своей колокольни (синтеза),
я бы предложил дополнить описания слов пространством имён morph,
описывающим возможные вариации слова, сохраняющие все остальные атрибуты.
а в пространстве syn заменить атрибут args
на атрибут agrees, в котором указывать, по каким именно характеристикам слово согласуется со своими валентностями.
например, для глаголов там будет согласование с subj по лицу, числу, роду

собственно такую схему я путался сделать. /* опечатку s/ы/у/ оставляю :) */
но безуспешно:
в русском по родам согласуется только прошедшее время единственное число,
число — само по себе согласовываемый признак, и что тут делать не совсем очевидно.

rg_software Jan 4 2010 at 01:40

Получается, что мы опять приходим к модели, когда каждая словоформа представляет собой отдельный объект, с собственными правилами согласования.

Nashev Jan 5 2010 at 13:23

Но из информации, что это словоформы одного и того же слова — наверное тоже то-то интересное можно извлечь и использовать. Например, я давно мечтаю об инструменте автопересогласования слов в фразах при правках отдельных слов…

Вот сейчас менял «о автопересогласовании» на «об инструменте автопересогласования» — и окончание последнего слова, к сожалению, пришлось менять самому %(

rg_software Jan 6 2010 at 01:01

В принципе, на то XDG и «extensible» :) Вы можете создать для слова атрибут, содержащий некий «идентификатор», одинаковый для всех слов, произведённых из одной словоформы. Далее по идентификатору находятся другие элементы.

Можно и ещё проще: словоформа -> (морф анализатор) -> начальная форма -> (морф синтезатор) -> требуемая форма.

zencd Jan 4 2010 at 06:21

5 и 6 части посложнее, конечно, но это ничего не значит :)

Fractalus Jan 5 2010 at 15:39

Предлагаю автору заняться анализом семантическим, это то, чем сейчас занимаются в научном мире

rg_software Jan 6 2010 at 01:05

Об этом будет следующая часть, хотя и, наверно, с её содержанием можно будет поспорить.

Fractalus Jan 6 2010 at 13:09

по поводу поспорить согласен
последний нашумевший проект на эту тему «интерсемантика»- попытка реализации единого семантического когда для всех языков.
В мае прошлого года, выступая на конференции посвященной проблемам искусственного интеллекта, один из докладчиков демонстрировал систему автоматизированного тестирования Control. Так вот, когда выяснилось, что система абсолютно не затрагивает вопросы семантического анализа, пошла буря критики и негодования, после этого докладчика слушать уже никто не хотел. Пишите про семантику, будем читать и комментировать ))))

soshial Jan 5 2010 at 18:33

Спасибо вам огромное за ваши статьи, однако у меня теплилась надежда, что вы будете писать статьи чуть шире. Не только о том, чем занимаетесь конкретно. ((

А то у меня самого кругозор в компьютерной лингвистике пока очень узок. Это грустно… =(

rg_software Jan 6 2010 at 01:05

А что вас интересует?
Если я в какой-то метод не верю — не буду писать о нём, зачем зря пропагандировать? :)
А если верю, но просто руки не доходят — буду стараться хотя бы затронуть.

pavelsh Jan 8 2010 at 05:22

А по поводу XDG. Для этой системы уже есть готовая грамматика для английского языка?

rg_software Jan 8 2010 at 05:32

Есть «примеры» разного уровня сложности прямо в поставке XDG. Существуют ли более продвинутые грамматики — не знаю.
Английский — язык с достаточно жёстко фиксированной структурой, и с ним порою неплохо справляются парсеры, основанные на более простых принципах. Видимо, мотивация «переезжать» не слишком высока.