В принципе, метод Ratnaparkhi достаточно хорош — настолько, чтобы не приходило в голову пробовать что-то иное. Мне кажется, проще его «дожать» до лучших показателей с помощью более широкого учитываемого контекста.
Даже сейчас если посмотреть где он ошибается, то окажется, что места эти неочевидны и вполне могут быть сочтены концом предложения любой другой системой тоже.
А что с ними не так? :) Как строится дерево? Тут есть разные подходы, например, корнем такого дерева может быть союз «и» (или запятая). Иной приём — перекидывается связь между двумя корневыми глаголами.
ну, в теории с помощью синтаксического анализатора можно определить, что в предложении две пары «подлежащее+сказуемое», а запятой нигде нет, и сообщить об этом юзеру.
NLP: проверка правописания — взгляд изнутри (часть 2)