rg_software Nov 27 2010 at 06:07

NLP: проверка правописания — взгляд изнутри (часть 2)

6 min

4.2K

Natural Language Processing * Artificial Intelligence

+42

Comments 12

UFO landed and left these words here

sam_reaper Nov 27 2010 at 09:02

О, вторая часть, я думал ждатьдолго буду, а тут приятное такое утро

Ismail Nov 27 2010 at 09:05

Интересно, познавательно.

ererer Nov 27 2010 at 16:15

А выделить (хотя бы вероятностно) конец предложения на основе семантического анализ?

rg_software Nov 27 2010 at 18:40

В принципе, метод Ratnaparkhi достаточно хорош — настолько, чтобы не приходило в голову пробовать что-то иное. Мне кажется, проще его «дожать» до лучших показателей с помощью более широкого учитываемого контекста.

Даже сейчас если посмотреть где он ошибается, то окажется, что места эти неочевидны и вполне могут быть сочтены концом предложения любой другой системой тоже.

ererer Nov 27 2010 at 18:45

Ну как скажете =) иногда обидно, что работают самые простые вещи (особенно в machine learning) =)

rg_software Nov 27 2010 at 18:48

Вот это правда :)

habarov Nov 27 2010 at 16:55

«Opulence. I has it».

ymik Nov 27 2010 at 19:36

а с сложносочинёнными предложениями как?

rg_software Nov 28 2010 at 01:32

А что с ними не так? :) Как строится дерево? Тут есть разные подходы, например, корнем такого дерева может быть союз «и» (или запятая). Иной приём — перекидывается связь между двумя корневыми глаголами.

ymik Nov 28 2010 at 05:13

В смысле что делать с ними при пропущенной запятой? Как отлавливать ошибку?

rg_software Nov 28 2010 at 05:18

ну, в теории с помощью синтаксического анализатора можно определить, что в предложении две пары «подлежащее+сказуемое», а запятой нигде нет, и сообщить об этом юзеру.