rg_software Dec 5 2010 at 09:00

NLP: проверка правописания — взгляд изнутри (часть 4)

3 min

6.3K

Natural Language Processing*Artificial Intelligence

+14

Comments 7

AgentSmith Dec 5 2010 at 20:55

Наверное, самая актуальная задача в этом направлении — это исправление -тся/-ться в глаголах.
«Мне нравиться этот сайт» — синтаксически неверно, т.к. нравиться в данном случае — инфинитив, который не может быть связан ни с одним словом (т.т при этом нет вспомогательного глагола вроде «должен»).
«Хочу хорошо учится» — тоже неверно, т.к «учится» — глагол в форме 3л, несов.в и не может синтаксически связываться ни с одним другим словом в предложении. Здесь необходим инфинитив.
Думаю, что начать работу стоит с этой подзадачи, а потом распространять выработанные методы на другие формы предложений.

olegchir Dec 6 2010 at 05:08

очень сложно неправильно писать ться и тся. Когда смотришь на неправильно написанные ться и тся просто глаза болят. А уж самому такое написать — нереал! Это же уже не опечатка, а непонимание _смысла_ написанного.

AgentSmith Dec 6 2010 at 06:18

Не знаю, где это нереал, но на хабре треть так пишет
habrahabr.ru/search/?q=%D1%82%D1%81%D1%8F%3Fq%3D%D1%82%D1%8C%D1%81%D1%8F&target_type=comments
habrahabr.ru/blogs/the_future_is_here/13909/
…

lightcaster Dec 6 2010 at 12:33

Рад, что корпус ошибок помог :)

Как-то в твиттере проскакивал парсер: github.com/wavii/pfp

Как я понял, это реализация стенфордского парсера на плюсах. Точно не уверен, поддерживает ли он Dependency Grammar. Возможно, поддержка есть. Хвалятся скоростью.

olshevskiy87 Dec 8 2010 at 07:14

Такой вот он, русский язык… богатый и… коварный ))

Talleyran Dec 28 2010 at 10:59

У меня пара вопросов по теме.
Находит ли парсер подлежащее и сказуемое в предложении?
Находили ли вы парсер для русского языка?
Существует ли где либо база предложений разобранных по составу?
Может вам будет полезно:
www.solarix.ru
www.solarix.ru/for_developers/api/syntax-analyzer-api.shtml
Тут есть синтаксический анализ, но он на С++, а я бы хотел что-то на ruby, к тому же проект коммерческий. Для меня это хобби, мне хотелось бы написать собственный синтаксический анализатор, и для этого мне (по моему представлению) нужна база примеров.

rg_software Dec 29 2010 at 01:54

1) конечно находит, это часть его работы
2) хороший вопрос — в принципе, такое есть, но проще натренировать на русских примерах готовый generic парсер
3) да, это и есть неоднократно упоминаемые «трибанки» — для английского penn treebank, для русского корпус syntagrus.