Комментарии 24
как это реагирует на генитивную неоднозначность (вчера видел соседа Игоря) или неоднозначность части речи (самое дллинное что придумал — косой с косой косой у косы косил, косой косой не косил)
В первом предложении отсутствует субъект действия, поэтому "кто-то видел соседа" не разберётся. Для этого в модель нужно вводить возможность предположений отсутствующих слов. А "соседа Игоря" — без проблем.
"Косой косой", если допускаем перестановку, то разберутся оба варианта. Но и человек так же разберёт.
нужно вводить возможность предположений отсутствующих слов.
обязательно, таких предложений полно. и ещё, часть речи может быть (выступать в качестве) практически любой другой частью речи:
прилагательное -> существительное (видел этого рыжего)
существительное -> прилагательное (стоял столбом), глагол
глагол -> существительное, и т.п.
'рыжего' может воспринять в качестве существительного
'столбом' как наречие — увы, нет. Но вообще это определяется словарем, в данном случае OpenCorpora.
>>> parseText(patterns,'свидетель видел этого рыжего')
+ свидетель видел этого рыжего ['NOUN,nomn', 'VERB', 'NOUN,accs'] ['свидетель', 'видел', 'рыжего']
+ свидетель видел этого рыжего ['ADJF', 'NOUN'] ['этого', 'рыжего']
'столбом' как наречие — увы, нет. Но вообще это определяется словарем, в данном случае OpenCorpora.
Смешались в кучу люди кони… особенно радуют попытки притянуть в этот странный процесс детей и понимание.
Попробуйте представить что понимание что к чему относится происходит из за того что есть слово которое ассоциируется с вполне конкретным объектом виденным визуально. И попытки притянуть к этому процессу падежи и роды, ну это как жесткое с теплым.
Попробуйте представить что понимание что к чему относится происходит из за того что есть слово которое ассоциируется с вполне конкретным объектом виденным визуально. И попытки притянуть к этому процессу падежи и роды, ну это как жесткое с теплым.
Это разные этапы понимания. Сначала мы из текста выхватываем знакомые слова, складываем их в словосочетания, и на этом этапе нам падёж и род слов важен, как соединяющие элементы. Далее, действительно, эти словосочетания мы превращаем в понятия из нашего жизненного опыта, и дальнейший разбор мы делаем с его учетом.
Не соглашусь. Никто не выхватывает из текста слова. Текст воспринимается целиком, активируя соотвествующее множество нейронов. Именно потому вы можете прочитать слово в котором буквы перепутаны местами. Да и никто не задумывается о частях речи.
Я вас понял, но останусь при своем мнении. Спасибо.
Можно. Начините прям с самого начала. От истоков нейросетей. Там масса информации. В частности о процессе обобщения информации нейронами. Как там ваш «супер ии» который уже прям все понимает и кучу выставок обьездил? :)
Статья по ссылке действительно интересная, спасибо.
Кстати, в моей первой версии правил я их назвал «правилами выведения», похожие на правила из статьи:
потому я хотел их использовать двумя способами:
— проверять слова из входного потока на соответствие правилу — т.е. то, что делается в статье
— и выполнять обратную операцию «выведения», т.е. создавать словосочетания, подставляя слова и ставя их в форму, соответствующую основному слову — в правиле левая часть, до "=", считалась подчиненной, а правая основной.
Чуть позже, когда мне пришлось вместо формального правила писать выражение на Python, от обратной операции пришлось временно отказаться, т.к. программа не может из выражения
понять, что род прилагательного нужно поставить в соответствие роду существительного, а не наоборот.
Но это временное отступление, я сейчас примерно представляю, как можно одновременно использовать сложные правила и иметь «выведение» нужной формы слов.
Кстати, в моей первой версии правил я их назвал «правилами выведения», похожие на правила из статьи:
# Красивый цветок
ADJF NOUN
-a- -b-
# Правила выведения, разделяющие пробелы обязательны
= a.case = b.case
= a.number = b.number
= a.gender = b.gender
потому я хотел их использовать двумя способами:
— проверять слова из входного потока на соответствие правилу — т.е. то, что делается в статье
— и выполнять обратную операцию «выведения», т.е. создавать словосочетания, подставляя слова и ставя их в форму, соответствующую основному слову — в правиле левая часть, до "=", считалась подчиненной, а правая основной.
Чуть позже, когда мне пришлось вместо формального правила писать выражение на Python, от обратной операции пришлось временно отказаться, т.к. программа не может из выражения
= a.tag.gender is None or a.tag.gender == b.tag.gender
понять, что род прилагательного нужно поставить в соответствие роду существительного, а не наоборот.
Но это временное отступление, я сейчас примерно представляю, как можно одновременно использовать сложные правила и иметь «выведение» нужной формы слов.
Нет смысла изобретать велосипед. На нашем ресурсе есть серия статей, например
Сравнение и создание морфологических анализаторов в NLTK. habrahabr.ru/post/340404. При наличии национального корпуса русского лучшего анализа чем NLTK пока не существует.
Сравнение и создание морфологических анализаторов в NLTK. habrahabr.ru/post/340404. При наличии национального корпуса русского лучшего анализа чем NLTK пока не существует.
В свое время глубоко копал тему. Достиг серьезных результатов в семантическом анализе для русского языка но потом переключился на другое. Энтузиастам и интересующимся могу посоветовать ознакомится с этим описанием моих исследований.
`
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Разбор предложений по шаблонам русского языка