alexivan3232 12 июл 2021 в 13:08

Особенности создания синтаксического анализатора русского текста

9 мин

Natural Language Processing*

Из песочницы

Комментарии 6

iboltaev 12 июл 2021 в 13:18

1) где код для статьи?

2) нет описания алгоритма. Обычно марковские цепи используют. Какой алгоритм синтаксического разбора, где грамматика, является ли она контекстно-свободной или контекстно-зависимой, как части речи определяли, и так далее.

Статья "я сделал то-то, а как - не скажу"

alexivan3232 13 июл 2021 в 10:30

Про все сразу рассказать и показать невозможно. Тема статьи охватывает ограниченный круг вопросов.

PrinceKorwin 12 июл 2021 в 16:03

Подскажите, пожалуйста, какие библиотеки (C/Rust) есть хорошие чтобы работать с Русским и Английским текстом?

alexivan3232 13 июл 2021 в 10:32

Продолжение теоритически планируется по мере того, как будет о чем сказать.

avl33 13 июл 2021 в 15:40

Дает ли Вам хорошее качество выделение сказуемого по общему контексту? И на чем лучше - на логике или на ИИ?

тот же вопрос по омонимам?

У себя в проекте делаю по омонимам (снятие неоднозначности) от центров качества, а сказуемое по принципу "приоритет глагола" с учетом характеристик центров качества. Всё с учетом знаков препинания - никакого общего смысла текста и длинных (много запятых) предложений. Только ML

Центры качества - слова в предложении, определившиеся однозначно, минус плохие слова.

alexivan3232 14 июл 2021 в 11:44

Система основана исключительно на логике, функционал ИИ не используется (во всяком случае пока). Поэтому сравнить нет возможности.

Обработка каждого предложения производится в последовательности шагов, начиная от очевидных ситуаций (в вашей терминологии - центров качества) до более сложных. На каждом шаге на основе различных критериев исключаются варианты омонимов и соответствующие межсловные связи. В сложных вариантах порой приходится использовать логику здравого смысла (т.к. пока отсутствует возможность анализировать контекст и смысл), например, однородные слова обычно располагаются по одну сторону от определяемого слова. Сказуемое в этой логике обрабатывается одним из первых. "Приоритет глагола" также применяется.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Особенности создания синтаксического анализатора русского текста

Комментарии 6

Публикации

Истории