rg_software 3 янв 2010 в 19:13

Заметки об NLP (часть 6)

6 мин

3.5K

Искусственный интеллектNatural Language Processing*

+38

Комментарии 24

nayjest 3 янв 2010 в 20:58

С нетерпением жду продолжения! И не обращайте внимания на популярность топиков, как по мне — сейчас самое интересное началось!

gbezyuk 3 янв 2010 в 22:22

Поддерживаю.

qmax 4 янв 2010 в 03:42

да и на карму автору тоже стоит посмотреть :)

на фоне топиков типа «поработит ли нас искуственный разум», эта серия статей весьма конструктивна.

rg_software 4 янв 2010 в 04:37

ОК, оставим этот вопрос — я мимоходом упомянул, не будем сосредотачиваться на мелочах в то время как есть темы посерьёзнее и поинтереснее :)

Antigluk 3 янв 2010 в 23:14

Интересная серия статей.
Популярность — думаю, из-за частоты выхода статей. по 2-3 статьи в день думаю, многовато.
А статьи занимательные, да. С удовольствием читаю.

НЛО прилетело и опубликовало эту надпись здесь

SergeyProkofiev 4 янв 2010 в 03:14

Совсем не утомили, наоборот, нечего размазывать по «раз в неделю».

varagian 4 янв 2010 в 03:50

Сейчас заметил, что во время прочтения цикла и перехода по ссылкам пальцы застыли на ctrl+D

qmax 4 янв 2010 в 04:06

а «добавить в избранное» на самом хабре не устраивает?

qmax 4 янв 2010 в 04:05

вродебы где-то у автора проскакивала идея способа обобщения правил,
позволяющего объединить в один кластер слова
«eat», «eats», «eated», «will eat»,
и далее вплоть до того, что
dim syn {in: {root} out: {subj obj adv*}}} указывается для всех переходных глаголов
dim syn {in: {root} out: {subj adv*}}} для всех переходных глаголов

без кластеризации пришлось бы описывать грамматические свойства для всех возможных словоформ языка.
например, для славянских, это будет неимовернейше дофигищща.

rg_software 4 янв 2010 в 04:36

В XDK вроде бы есть какая-то рудиментарная поддержка морфологии, но для случаев сложнее английского это точно не работает.
По поводу обобщений «eats» с формами — не помню, но верю. Классы слов («переходные», «непереходные») точно поддерживаются.

А вот по поводу «дофигищща» — как раз это меня не напрягает.
Допустим, есть скрипт, который на основании вывода морф. анализатора генерирует требуемые правила.
Реально для разбора одного предложения нужны только правила, относящиеся к словам данного предложения.

Получается, что для разбора фразы нужно всего-то 5-10 правил. (Понимаю, при этом будут вопросы к производительности, но это уже другая тема).

qmax 4 янв 2010 в 04:42

ну в принципе то да.
если все слова фразы в явном виде входят в базу правил,
то поиск этих правил проблемы не создаст.

qmax 4 янв 2010 в 04:16

ну и кстати, по части морфологии,
со своей колокольни (синтеза),
я бы предложил дополнить описания слов пространством имён morph,
описывающим возможные вариации слова, сохраняющие все остальные атрибуты.
а в пространстве syn заменить атрибут args
на атрибут agrees, в котором указывать, по каким именно характеристикам слово согласуется со своими валентностями.
например, для глаголов там будет согласование с subj по лицу, числу, роду

собственно такую схему я путался сделать. /* опечатку s/ы/у/ оставляю :) */
но безуспешно:
в русском по родам согласуется только прошедшее время единственное число,
число — само по себе согласовываемый признак, и что тут делать не совсем очевидно.

rg_software 4 янв 2010 в 04:40

Получается, что мы опять приходим к модели, когда каждая словоформа представляет собой отдельный объект, с собственными правилами согласования.

Nashev 5 янв 2010 в 16:23

Но из информации, что это словоформы одного и того же слова — наверное тоже то-то интересное можно извлечь и использовать. Например, я давно мечтаю об инструменте автопересогласования слов в фразах при правках отдельных слов…

Вот сейчас менял «о автопересогласовании» на «об инструменте автопересогласования» — и окончание последнего слова, к сожалению, пришлось менять самому %(

rg_software 6 янв 2010 в 04:01

В принципе, на то XDG и «extensible» :) Вы можете создать для слова атрибут, содержащий некий «идентификатор», одинаковый для всех слов, произведённых из одной словоформы. Далее по идентификатору находятся другие элементы.

Можно и ещё проще: словоформа -> (морф анализатор) -> начальная форма -> (морф синтезатор) -> требуемая форма.

zencd 4 янв 2010 в 09:21

5 и 6 части посложнее, конечно, но это ничего не значит :)

Fractalus 5 янв 2010 в 18:39

Предлагаю автору заняться анализом семантическим, это то, чем сейчас занимаются в научном мире

rg_software 6 янв 2010 в 04:05

Об этом будет следующая часть, хотя и, наверно, с её содержанием можно будет поспорить.

Fractalus 6 янв 2010 в 16:09

по поводу поспорить согласен
последний нашумевший проект на эту тему «интерсемантика»- попытка реализации единого семантического когда для всех языков.
В мае прошлого года, выступая на конференции посвященной проблемам искусственного интеллекта, один из докладчиков демонстрировал систему автоматизированного тестирования Control. Так вот, когда выяснилось, что система абсолютно не затрагивает вопросы семантического анализа, пошла буря критики и негодования, после этого докладчика слушать уже никто не хотел. Пишите про семантику, будем читать и комментировать ))))

soshial 5 янв 2010 в 21:33

Спасибо вам огромное за ваши статьи, однако у меня теплилась надежда, что вы будете писать статьи чуть шире. Не только о том, чем занимаетесь конкретно. ((

А то у меня самого кругозор в компьютерной лингвистике пока очень узок. Это грустно… =(

rg_software 6 янв 2010 в 04:05

А что вас интересует?
Если я в какой-то метод не верю — не буду писать о нём, зачем зря пропагандировать? :)
А если верю, но просто руки не доходят — буду стараться хотя бы затронуть.

pavelsh 8 янв 2010 в 08:22

А по поводу XDG. Для этой системы уже есть готовая грамматика для английского языка?

rg_software 8 янв 2010 в 08:32

Есть «примеры» разного уровня сложности прямо в поставке XDG. Существуют ли более продвинутые грамматики — не знаю.
Английский — язык с достаточно жёстко фиксированной структурой, и с ним порою неплохо справляются парсеры, основанные на более простых принципах. Видимо, мотивация «переезжать» не слишком высока.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Заметки об NLP (часть 6)

Комментарии 24

Публикации

Истории