Как стать автором
Обновить

Комментарии 24

С нетерпением жду продолжения! И не обращайте внимания на популярность топиков, как по мне — сейчас самое интересное началось!
Поддерживаю.
да и на карму автору тоже стоит посмотреть :)

на фоне топиков типа «поработит ли нас искуственный разум», эта серия статей весьма конструктивна.
ОК, оставим этот вопрос — я мимоходом упомянул, не будем сосредотачиваться на мелочах в то время как есть темы посерьёзнее и поинтереснее :)
Интересная серия статей.
Популярность — думаю, из-за частоты выхода статей. по 2-3 статьи в день думаю, многовато.
А статьи занимательные, да. С удовольствием читаю.
Не утомил конечно, жду продолжения!
Совсем не утомили, наоборот, нечего размазывать по «раз в неделю».
Сейчас заметил, что во время прочтения цикла и перехода по ссылкам пальцы застыли на ctrl+D
а «добавить в избранное» на самом хабре не устраивает?
вродебы где-то у автора проскакивала идея способа обобщения правил,
позволяющего объединить в один кластер слова
«eat», «eats», «eated», «will eat»,
и далее вплоть до того, что
dim syn {in: {root} out: {subj obj adv*}}} указывается для всех переходных глаголов
dim syn {in: {root} out: {subj adv*}}} для всех переходных глаголов

без кластеризации пришлось бы описывать грамматические свойства для всех возможных словоформ языка.
например, для славянских, это будет неимовернейше дофигищща.

В XDK вроде бы есть какая-то рудиментарная поддержка морфологии, но для случаев сложнее английского это точно не работает.
По поводу обобщений «eats» с формами — не помню, но верю. Классы слов («переходные», «непереходные») точно поддерживаются.

А вот по поводу «дофигищща» — как раз это меня не напрягает.
Допустим, есть скрипт, который на основании вывода морф. анализатора генерирует требуемые правила.
Реально для разбора одного предложения нужны только правила, относящиеся к словам данного предложения.

Получается, что для разбора фразы нужно всего-то 5-10 правил. (Понимаю, при этом будут вопросы к производительности, но это уже другая тема).
ну в принципе то да.
если все слова фразы в явном виде входят в базу правил,
то поиск этих правил проблемы не создаст.
ну и кстати, по части морфологии,
со своей колокольни (синтеза),
я бы предложил дополнить описания слов пространством имён morph,
описывающим возможные вариации слова, сохраняющие все остальные атрибуты.
а в пространстве syn заменить атрибут args
на атрибут agrees, в котором указывать, по каким именно характеристикам слово согласуется со своими валентностями.
например, для глаголов там будет согласование с subj по лицу, числу, роду

собственно такую схему я путался сделать. /* опечатку s/ы/у/ оставляю :) */
но безуспешно:
в русском по родам согласуется только прошедшее время единственное число,
число — само по себе согласовываемый признак, и что тут делать не совсем очевидно.
Получается, что мы опять приходим к модели, когда каждая словоформа представляет собой отдельный объект, с собственными правилами согласования.
Но из информации, что это словоформы одного и того же слова — наверное тоже то-то интересное можно извлечь и использовать. Например, я давно мечтаю об инструменте автопересогласования слов в фразах при правках отдельных слов…

Вот сейчас менял «о автопересогласовании» на «об инструменте автопересогласования» — и окончание последнего слова, к сожалению, пришлось менять самому %(
В принципе, на то XDG и «extensible» :) Вы можете создать для слова атрибут, содержащий некий «идентификатор», одинаковый для всех слов, произведённых из одной словоформы. Далее по идентификатору находятся другие элементы.

Можно и ещё проще: словоформа -> (морф анализатор) -> начальная форма -> (морф синтезатор) -> требуемая форма.
5 и 6 части посложнее, конечно, но это ничего не значит :)
Предлагаю автору заняться анализом семантическим, это то, чем сейчас занимаются в научном мире
Об этом будет следующая часть, хотя и, наверно, с её содержанием можно будет поспорить.
по поводу поспорить согласен
последний нашумевший проект на эту тему «интерсемантика»- попытка реализации единого семантического когда для всех языков.
В мае прошлого года, выступая на конференции посвященной проблемам искусственного интеллекта, один из докладчиков демонстрировал систему автоматизированного тестирования Control. Так вот, когда выяснилось, что система абсолютно не затрагивает вопросы семантического анализа, пошла буря критики и негодования, после этого докладчика слушать уже никто не хотел. Пишите про семантику, будем читать и комментировать ))))
Спасибо вам огромное за ваши статьи, однако у меня теплилась надежда, что вы будете писать статьи чуть шире. Не только о том, чем занимаетесь конкретно. ((

А то у меня самого кругозор в компьютерной лингвистике пока очень узок. Это грустно… =(
А что вас интересует?
Если я в какой-то метод не верю — не буду писать о нём, зачем зря пропагандировать? :)
А если верю, но просто руки не доходят — буду стараться хотя бы затронуть.
А по поводу XDG. Для этой системы уже есть готовая грамматика для английского языка?
Есть «примеры» разного уровня сложности прямо в поставке XDG. Существуют ли более продвинутые грамматики — не знаю.
Английский — язык с достаточно жёстко фиксированной структурой, и с ним порою неплохо справляются парсеры, основанные на более простых принципах. Видимо, мотивация «переезжать» не слишком высока.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.