Pull to refresh

Comments 24

как это реагирует на генитивную неоднозначность (вчера видел соседа Игоря) или неоднозначность части речи (самое дллинное что придумал — косой с косой косой у косы косил, косой косой не косил)

В первом предложении отсутствует субъект действия, поэтому "кто-то видел соседа" не разберётся. Для этого в модель нужно вводить возможность предположений отсутствующих слов. А "соседа Игоря" — без проблем.


"Косой косой", если допускаем перестановку, то разберутся оба варианта. Но и человек так же разберёт.

нужно вводить возможность предположений отсутствующих слов.

обязательно, таких предложений полно. и ещё, часть речи может быть (выступать в качестве) практически любой другой частью речи:
прилагательное -> существительное (видел этого рыжего)
существительное -> прилагательное (стоял столбом), глагол
глагол -> существительное, и т.п.
'рыжего' может воспринять в качестве существительного
>>> parseText(patterns,'свидетель видел этого рыжего')
+ свидетель видел этого рыжего ['NOUN,nomn', 'VERB', 'NOUN,accs'] ['свидетель', 'видел', 'рыжего']
+ свидетель видел этого рыжего ['ADJF', 'NOUN'] ['этого', 'рыжего']

'столбом' как наречие — увы, нет. Но вообще это определяется словарем, в данном случае OpenCorpora.
UFO just landed and posted this here
а если интерпретировать семантику, то чайник долго закипает и чайник долго НЕ закипает значит одно и то же
Смешались в кучу люди кони… особенно радуют попытки притянуть в этот странный процесс детей и понимание.
Попробуйте представить что понимание что к чему относится происходит из за того что есть слово которое ассоциируется с вполне конкретным объектом виденным визуально. И попытки притянуть к этому процессу падежи и роды, ну это как жесткое с теплым.
UFO just landed and posted this here
«Красный пион видит белый мотылёк». Это одно явление описывается с вашим или нет? Как по мне, то одно, просто акценты разные. Мы же знаем, что у мотылька есть способность видеть, а у пиона нет.
UFO just landed and posted this here
Близость — да, важна, см.п.3.

Это разные этапы понимания. Сначала мы из текста выхватываем знакомые слова, складываем их в словосочетания, и на этом этапе нам падёж и род слов важен, как соединяющие элементы. Далее, действительно, эти словосочетания мы превращаем в понятия из нашего жизненного опыта, и дальнейший разбор мы делаем с его учетом.

Не соглашусь. Никто не выхватывает из текста слова. Текст воспринимается целиком, активируя соотвествующее множество нейронов. Именно потому вы можете прочитать слово в котором буквы перепутаны местами. Да и никто не задумывается о частях речи.
UFO just landed and posted this here
Можно. Начините прям с самого начала. От истоков нейросетей. Там масса информации. В частности о процессе обобщения информации нейронами. Как там ваш «супер ии» который уже прям все понимает и кучу выставок обьездил? :)
UFO just landed and posted this here
Статья по ссылке действительно интересная, спасибо.

Кстати, в моей первой версии правил я их назвал «правилами выведения», похожие на правила из статьи:

# Красивый цветок
ADJF NOUN
-a-  -b-
# Правила выведения, разделяющие пробелы обязательны
= a.case = b.case
= a.number = b.number
= a.gender = b.gender

потому я хотел их использовать двумя способами:
— проверять слова из входного потока на соответствие правилу — т.е. то, что делается в статье
— и выполнять обратную операцию «выведения», т.е. создавать словосочетания, подставляя слова и ставя их в форму, соответствующую основному слову — в правиле левая часть, до "=", считалась подчиненной, а правая основной.

Чуть позже, когда мне пришлось вместо формального правила писать выражение на Python, от обратной операции пришлось временно отказаться, т.к. программа не может из выражения

= a.tag.gender is None or a.tag.gender == b.tag.gender

понять, что род прилагательного нужно поставить в соответствие роду существительного, а не наоборот.

Но это временное отступление, я сейчас примерно представляю, как можно одновременно использовать сложные правила и иметь «выведение» нужной формы слов.
Нет смысла изобретать велосипед. На нашем ресурсе есть серия статей, например
Сравнение и создание морфологических анализаторов в NLTK. habrahabr.ru/post/340404. При наличии национального корпуса русского лучшего анализа чем NLTK пока не существует.

Мне, наверное, под каждой статьей придется писать дисклеймер, что я люблю строить велосипеды, причем в тех областях, где я не являюсь профессионалом.


За ссылку спасибо. Комментарии под ней видели?

В свое время глубоко копал тему. Достиг серьезных результатов в семантическом анализе для русского языка но потом переключился на другое. Энтузиастам и интересующимся могу посоветовать ознакомится с этим описанием моих исследований.
А код не выкладывали в открытий доступ (на github'e и т.п.)?
Sign up to leave a comment.

Articles