rg_software31 дек 2009 в 13:51

Заметки об NLP (часть 1)

5 мин

16K

Natural Language Processing * Искусственный интеллект

+47

Комментарии 54

Pechkin1007 31 дек 2009 в 13:55

При аббревиатуре NLP сразу почему-то вспомнилось нейролингвистическое программирование)

salvator 31 дек 2009 в 14:10

я тоже по началу не смог связать содержимое статьи с психологией)

rg_software 31 дек 2009 в 14:12

Именно поэтому аббревиатура расшифрована во второй строчке сверху, ещё до ката. По ошибке прочесть две строчки не страшно :)

Error_403_Forbidden 31 дек 2009 в 20:27

Обычная ошибка тех, кто не в теме.

НЛО прилетело и опубликовало эту надпись здесь

objMihail 31 дек 2009 в 18:19

Очень даже информативно, т.к. разложено по полочкам :)

Kpblc 31 дек 2009 в 20:01

Добавил в закладки, буду следить!

FTM 31 дек 2009 в 20:09

Заинтересовали вы меня. С наступающим.

НЛО прилетело и опубликовало эту надпись здесь

rg_software 1 янв 2010 в 01:06

Не всё сразу.
Касательно словаря Зализняка — как раз указал, что вряд ли будем заниматься морфологией, меня больше интересует синтаксический анализ фраз.

kmike 1 янв 2010 в 15:07

Кстати, а никто не знает, как дело обстоит с лицензированием словаря Зализняка? Кому на него права принадлежат, можно ли его свободно использовать? А то у нас вся морфология на Зализняке. Просто берут и используют, или все договариваются как-то?

НЛО прилетело и опубликовало эту надпись здесь

kmike 1 янв 2010 в 21:55

Спасибо, интересная информация.

xintrea 1 янв 2010 в 00:06

> Например, на японский невозможно перевести фразу «мой брат — студент», так как в японском нет слова «брат» — есть только «старший брат» и «младший брат»

Во блин. А как же они обозначают брата-близнеца? Ведь он не старше и не младше.

gbezyuk 1 янв 2010 в 00:20

Строго говоря, всё же младше или старше, хотя и незначительно.
Если не по времени зачатия, то по времени рождения уж точно, интерфейс родовых путей строго последовательный )
По теме же, онлайн-переводчики выдали действительно два варианта перевода для слова «брат»:
兄弟 и ブラト; а в таком аниме как Shingetsutan Tsukihime я и вовсе третий слышал.

rg_software 1 янв 2010 в 01:41

Второе — врут :)
Это просто транслитерация на катакану русского слова «брат» :)))

kurokikaze 1 янв 2010 в 14:23

Если не по времени зачатия, то по времени рождения уж точно, интерфейс родовых путей строго последовательный )

Есть запасной интерфейс — КС.

Nashev 5 янв 2010 в 14:35

Этот запасной тоже не сильно параллелен…

rg_software 1 янв 2010 в 01:17

В японском есть слово «близнецы» :) Наверно, его и используют.

gbezyuk 1 янв 2010 в 00:13

Спасибо за пост.
Было бы здорово прочитать небольшой обзор «who is who» в среде NLP, от инсайдера. Персоналии, фирмы, продукты — чтобы понять положение дел в отрасли.

rg_software 1 янв 2010 в 01:08

К сожалению, не обещаю. Попробуем.

Проблема в том, что «масло слишком тонко размазано». Одни занимаются морфологией, другие синтаксисом, третьи — извлечением фактов… К тому же, всё завязано на конкретные языки. Если вас интересует, скажем, русский, толку с того, что такая-то фирма имеет кучу алгоритмов для работы с английским или немецким. И борьба подходов, методов ещё не завершена :)

fxposter 1 янв 2010 в 11:45

Заинтересовался. Хочу продолжения, и в первую очередь интересуют практические мысли по поводу разбора предложений — не в смысле программного кода, а в смысле идей, которые можно использовать для распознавания смысла написанного.

chukharev 1 янв 2010 в 14:33

«Надо сказать, гугл-переводчик в разборе совсем плох»

Гугл-переводчик не разбирает синтаксис, так как работает по статистическому принципу, на основе параллельных (выравненных) корпусов, лингвистическое описание системы языка при таком подходе не используется. Описанная в статье схема морфологического — синтаксического — семантического анализа соответствует «алгебраическому» (= алгоритмическому) подходу к автоматической переработе текста, который работает на основе формализованных описаний соответствующих уровней языка.

rg_software 1 янв 2010 в 14:44

Да, об этом ещё будет идти речь.
И своё мнение о подходах гугла я ещё выскажу :))

qmax 2 янв 2010 в 01:43

«o, bella, ciao! bella, ciao! bella, ciao, ciao, ciao!!»
с итальянского на русский переводится как
«или, лучше сказать, Hello! Ницца, Hello! Ницца, алло, алло, алло!»

«Ницца» тут возникла ну совсем не из выровненного корпуса :)

да и «статистики» по конкретно этой фразе более, чем достаточно.

chukharev 2 янв 2010 в 06:34

Откуда возникла «Ницца»?

qmax 2 янв 2010 в 06:36

я тоже не сразу догадался :)
но ответ очевидный :)

bella — nice — Ницца

chukharev 2 янв 2010 в 06:49

Изумительно! Оно, оказывается, «через английский» не гнушается переводить… Совсем как переводчики на конференциях ООН :-) Спасибо за пример.

Antigluk 1 янв 2010 в 15:14

Год назад делал программу, которая автоматически генерит транскрипцию введенного слова. и, заодно, делает фонетический разбор :)

Antigluk 1 янв 2010 в 15:15

некоторые мелочи правда не учтены, но в целом работает правильно

chukharev 1 янв 2010 в 17:53

Для какого языка?

Antigluk 1 янв 2010 в 18:51

для украинского

chukharev 1 янв 2010 в 19:13

А в украинском есть случаи, когда произношение отличается от написания? Там ведь весьма однозначное соответствие орфографии и транскрипции, разве нет?

Antigluk 1 янв 2010 в 20:31

Да, благодаря таким эффектам как ассимиляция по звонкости-глухости, мягкости, упрощения (выпадение согласных), удлинение шипящих, сочетания свистящих и шипящих звуков, и многих других.
А соответствие достаточно однозначное, поэтому и есть возможность автоматизировать получение транскрипции. На самом деле нужно просто знать правила и в любом языке будет однозначное соответствие. По крайней мере во многих.

rg_software 2 янв 2010 в 00:23

:) Ну если все исключения запихать в правила, конечно, исключений не будет вообще :))
В разных языках транскрипция разной степени сложности.

В русском средне, в английском сложно… слишком уж разнообразны источники, откуда в английский приходили слова, сохраняя произношение.

chukharev 2 янв 2010 в 06:45

В английском языке даже исконно английские слова произносятся совсем не так, как пишутся. Английский язык немного похож в этом смысле на языки с иероглифической письменностью, в которых связи между написанием и произношением никакой нет.

Причина этого — в истории английского языка. Современная английская орфография фиксирует произношение среднеанглийского периода. С тех пор в языке произошло множество фонетических процессов, полностью изменивших произношение, а орфография осталась прежней.

Вообще скорость изменений в английском языке потрясает по сравнению с другими языками. Разумеется, на то есть исторические причины. Сравните с русским. Носитель современного русского языка вполне поймёт «Слово о полку Игореве» (12 в.): «Не лепо ли ны бяшеть, братiе, начяти старыми словесы трудныхъ повестiи о пълку Игореве, Игоря Святъславличя! Начяти же ся тои песни по былинамъ сего времени, а не по замышленiю Бояню...» А попробуйте показать носителю современного английского языка (11 в.): «Hwæt! We Gardena in geardagum, þeodcyninga, þrym gefrunon, hu ða æþelingas ellen fremedon...» Узнаются, наверно, только we и in :-)

chukharev 2 янв 2010 в 06:47

(Это «Беовульф», конечно.)

metamorph 1 янв 2010 в 16:48

Интересная тема. Не подкинете ли список рекомендованой литературы?

rg_software 1 янв 2010 в 17:01

С этим та же проблема, что и с выбором метода и т.п. — слишком велико разнообразие вариантов, чтобы все их охватить в одной книге.
Например, много где цитируют монографию Журафски. Быть может, по уровню охвата и вправду это самая обширная книга.
Однако про dependency parsing в ней вообще ничего или два слова (могу ошибаться, давно её листал).

К сожалению, вам сначала придётся определиться с узкой задачей, а потом уже смотреть литературу по теме. По крайней мере, для меня самого это проблема.

Irkin 2 янв 2010 в 11:32

Практическое воплощение dependency parsing для русского языка описано 15 лет назад в этой книге (формат DjVu)

Лингвистический процессор

Книга выпущена лабораторией компьютерной лингвистики ИППИ

ИППИ

rg_software 2 янв 2010 в 11:58

Ох, видел эту книгу. Не хочу никого обижать, но как-то я скептически к ней отношусь, хотя написано много чего любопытного… Грубо говоря, если бы всё и вправду было бы так хорошо, про переводчики ПРОМТ бы вообще никто не услышал.

chukharev 1 янв 2010 в 17:52

Коллеги, знающие японский, подсказали, что в японском всё-таки есть общее слово для старшего и младшего брата — «nii (nii-chan)». Сам я японского не знаю, потому корректность примера не могу оценить. Пример с финским, в котором нет грамматической категории рода («он — она — оно»), разумеется, корректен.

rg_software 2 янв 2010 в 00:27

Хм, интересно…
Я сейчас проверил по большому словарю — да, «нии-чан» даётся как «просто брат», хотя в электронном словаре такой расшифровки нет.

Но что характерно, это явно контекстно-зависимый перевод, т.к. для написания используется тот же иероглиф, что и для «старшего брата». Хотя лучше уточнить, я пока ещё специалистом в японском себя назвать не могу.

zencd 4 янв 2010 в 06:28

А вот меня сопутствующая тема сильно интересует. Хотелось бы почитать научно-популярную (более популярную чем научную) статью о различиях и сходствах языков, о всяких интересных особенностях. Не знаете таких трудов? Или может сами напишете? Знания-то и умения, я вижу, имеются :-)

Вот например о чём я: в финском нет различия между «он» и «она», где-то нет падежей, в японском много разных слов для обозначения одного и того же различного уровня вежливости.

rg_software 4 янв 2010 в 06:40

Ну если вот так сходу, почитайте статью о лингвистической относительности в «Кругосвете». Там и по ссылкам побродить можно.

zencd 4 янв 2010 в 06:43

спасибо!

Fractalus 4 янв 2010 в 19:23

задача создания синтаксического анализатора более менее разрешена, было разработано десятки различных грамматик на эту тему, начиная с грамматик Холмского до стохастических грамматик.Проблема как раз состоит в анализе семантическом. На сегодняшний день пока не известно ни одной системы которая была бы сдана в промышленную эксплуатацию, поэтому на месте автора я бы занялся именно этой темой. И вот это как раз действительно то, чем сейчас занимается наука. Последний интересный проект на эту тему известен как «интерсемантика», в основе которого лежит построение так называемого единого семантического кода языка (рус, укр, англ и т.д.)

Fractalus 4 янв 2010 в 19:42

извините Хомского

rengo 6 янв 2010 в 12:26

А нет случайно ссылок на алгоритмы или на готовые реализации разбора текста на предложения? Мне сейчас как раз нужно разбивать на предложения тексты на европейских языках, так не нашёл решения лучше по качеству, чем открывать на сервере документы вордом и использовать встроенные коллекции текста sentences[] и words[].

Всё бы хорошо, да работает аццки долго, смерть просто… Было бы круто, если бы у Вас нашлась ссылочка другая на невордовые реализации =)

rg_software 6 янв 2010 в 12:33

Тут главное знать, что гуглить :) Штука популярная, ищите «sentence splitter»… не даю конкретных ссылок, т.к. можете найти довольно много разного — на нужном языке программирования, для нужного языка входного текста; это не редкость.

rengo 6 янв 2010 в 12:47

Это я гуглил, но мною нагугливается только шлак один, да к тому же в основном для инглиша.
Есть у меня внутреннее ощущение, что придумана библиотечка умеющая сплиттить кучу языков, точно придумана. На каком языке — без разницы, прикручу к своему дотнету по любому.

rg_software 6 янв 2010 в 13:32

Ох, тогда не знаю — что шлак, а что не шлак… Для начала хотя бы эти: opennlp.sourceforge.net/projects.html
В OpenNLP Tools есть sentence detector/splitter, да и вроде там не сильно завязано на конкретные языки…

rg_software 6 янв 2010 в 13:34

Ещё вот это вроде на язык не завязано: alias-i.com/lingpipe/

rengo 6 янв 2010 в 13:47

Вот за это спасибо, кажется весьма гут)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий