sshmakov Mar 10 2018 at 02:28

Разбор предложений по шаблонам русского языка

9 min

13K

Python*

+12

Comments 24

smer44 Mar 10 2018 at 05:56

как это реагирует на генитивную неоднозначность (вчера видел соседа Игоря) или неоднозначность части речи (самое дллинное что придумал — косой с косой косой у косы косил, косой косой не косил)

sshmakov Mar 10 2018 at 11:44

В первом предложении отсутствует субъект действия, поэтому "кто-то видел соседа" не разберётся. Для этого в модель нужно вводить возможность предположений отсутствующих слов. А "соседа Игоря" — без проблем.

"Косой косой", если допускаем перестановку, то разберутся оба варианта. Но и человек так же разберёт.

smer44 Mar 10 2018 at 19:54

нужно вводить возможность предположений отсутствующих слов.

обязательно, таких предложений полно. и ещё, часть речи может быть (выступать в качестве) практически любой другой частью речи:
прилагательное -> существительное (видел этого рыжего)
существительное -> прилагательное (стоял столбом), глагол
глагол -> существительное, и т.п.

sshmakov Mar 11 2018 at 01:05

'рыжего' может воспринять в качестве существительного

>>> parseText(patterns,'свидетель видел этого рыжего')

+ свидетель видел этого рыжего ['NOUN,nomn', 'VERB', 'NOUN,accs'] ['свидетель', 'видел', 'рыжего']

+ свидетель видел этого рыжего ['ADJF', 'NOUN'] ['этого', 'рыжего']

'столбом' как наречие — увы, нет. Но вообще это определяется словарем, в данном случае OpenCorpora.

UFO just landed and posted this here

smer44 Mar 10 2018 at 07:18

а если интерпретировать семантику, то чайник долго закипает и чайник долго НЕ закипает значит одно и то же

LorDCA Mar 10 2018 at 07:26

Смешались в кучу люди кони… особенно радуют попытки притянуть в этот странный процесс детей и понимание.
Попробуйте представить что понимание что к чему относится происходит из за того что есть слово которое ассоциируется с вполне конкретным объектом виденным визуально. И попытки притянуть к этому процессу падежи и роды, ну это как жесткое с теплым.

UFO just landed and posted this here

VolCh Mar 10 2018 at 10:21

«Красный пион видит белый мотылёк». Это одно явление описывается с вашим или нет? Как по мне, то одно, просто акценты разные. Мы же знаем, что у мотылька есть способность видеть, а у пиона нет.

UFO just landed and posted this here

sshmakov Mar 10 2018 at 10:31

Близость — да, важна, см.п.3.

sshmakov Mar 10 2018 at 11:02

Это разные этапы понимания. Сначала мы из текста выхватываем знакомые слова, складываем их в словосочетания, и на этом этапе нам падёж и род слов важен, как соединяющие элементы. Далее, действительно, эти словосочетания мы превращаем в понятия из нашего жизненного опыта, и дальнейший разбор мы делаем с его учетом.

LorDCA Mar 10 2018 at 22:05

Не соглашусь. Никто не выхватывает из текста слова. Текст воспринимается целиком, активируя соотвествующее множество нейронов. Именно потому вы можете прочитать слово в котором буквы перепутаны местами. Да и никто не задумывается о частях речи.

sshmakov Mar 10 2018 at 23:54

Я вас понял, но останусь при своем мнении. Спасибо.

UFO just landed and posted this here

LorDCA Mar 11 2018 at 07:00

Можно. Начините прям с самого начала. От истоков нейросетей. Там масса информации. В частности о процессе обобщения информации нейронами. Как там ваш «супер ии» который уже прям все понимает и кучу выставок обьездил? :)

UFO just landed and posted this here

sshmakov Mar 11 2018 at 11:20

Статья по ссылке действительно интересная, спасибо.

Кстати, в моей первой версии правил я их назвал «правилами выведения», похожие на правила из статьи:

# Красивый цветок
ADJF NOUN
-a-  -b-
# Правила выведения, разделяющие пробелы обязательны
= a.case = b.case
= a.number = b.number
= a.gender = b.gender

потому я хотел их использовать двумя способами:
— проверять слова из входного потока на соответствие правилу — т.е. то, что делается в статье
— и выполнять обратную операцию «выведения», т.е. создавать словосочетания, подставляя слова и ставя их в форму, соответствующую основному слову — в правиле левая часть, до "=", считалась подчиненной, а правая основной.

Чуть позже, когда мне пришлось вместо формального правила писать выражение на Python, от обратной операции пришлось временно отказаться, т.к. программа не может из выражения

= a.tag.gender is None or a.tag.gender == b.tag.gender

понять, что род прилагательного нужно поставить в соответствие роду существительного, а не наоборот.

Но это временное отступление, я сейчас примерно представляю, как можно одновременно использовать сложные правила и иметь «выведение» нужной формы слов.

Scorobey Mar 10 2018 at 08:12

Нет смысла изобретать велосипед. На нашем ресурсе есть серия статей, например
Сравнение и создание морфологических анализаторов в NLTK. habrahabr.ru/post/340404. При наличии национального корпуса русского лучшего анализа чем NLTK пока не существует.

sshmakov Mar 10 2018 at 10:52

Мне, наверное, под каждой статьей придется писать дисклеймер, что я люблю строить велосипеды, причем в тех областях, где я не являюсь профессионалом.

За ссылку спасибо. Комментарии под ней видели?

george3 Mar 10 2018 at 15:20

В свое время глубоко копал тему. Достиг серьезных результатов в семантическом анализе для русского языка но потом переключился на другое. Энтузиастам и интересующимся могу посоветовать ознакомится с этим описанием моих исследований.

vedenin1980 Mar 10 2018 at 18:16

А код не выкладывали в открытий доступ (на github'e и т.п.)?

george3 Mar 10 2018 at 19:07

нет )

george3 Mar 10 2018 at 19:06

Show the best of all time