Как стать автором
Обновить

Комментарии 7

Наверное, самая актуальная задача в этом направлении — это исправление -тся/-ться в глаголах.
«Мне нравиться этот сайт» — синтаксически неверно, т.к. нравиться в данном случае — инфинитив, который не может быть связан ни с одним словом (т.т при этом нет вспомогательного глагола вроде «должен»).
«Хочу хорошо учится» — тоже неверно, т.к «учится» — глагол в форме 3л, несов.в и не может синтаксически связываться ни с одним другим словом в предложении. Здесь необходим инфинитив.
Думаю, что начать работу стоит с этой подзадачи, а потом распространять выработанные методы на другие формы предложений.
очень сложно неправильно писать ться и тся. Когда смотришь на неправильно написанные ться и тся просто глаза болят. А уж самому такое написать — нереал! Это же уже не опечатка, а непонимание _смысла_ написанного.
Рад, что корпус ошибок помог :)

Как-то в твиттере проскакивал парсер: github.com/wavii/pfp

Как я понял, это реализация стенфордского парсера на плюсах. Точно не уверен, поддерживает ли он Dependency Grammar. Возможно, поддержка есть. Хвалятся скоростью.
Такой вот он, русский язык… богатый и… коварный ))
У меня пара вопросов по теме.
Находит ли парсер подлежащее и сказуемое в предложении?
Находили ли вы парсер для русского языка?
Существует ли где либо база предложений разобранных по составу?
Может вам будет полезно:
www.solarix.ru
www.solarix.ru/for_developers/api/syntax-analyzer-api.shtml
Тут есть синтаксический анализ, но он на С++, а я бы хотел что-то на ruby, к тому же проект коммерческий. Для меня это хобби, мне хотелось бы написать собственный синтаксический анализатор, и для этого мне (по моему представлению) нужна база примеров.
1) конечно находит, это часть его работы
2) хороший вопрос — в принципе, такое есть, но проще натренировать на русских примерах готовый generic парсер
3) да, это и есть неоднократно упоминаемые «трибанки» — для английского penn treebank, для русского корпус syntagrus.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.