aTwice 21 авг 2013 в 13:46

Псевдолемматизация, композиты и прочие странные словечки

3 мин

11K

Блог компании VKБлог компании Content AI

+55

Комментарии 7

kzn 21 авг 2013 в 17:42

Композиты кажется нужны для довольно узкого круга задач.

Можно, как в АОТ, отрезать приставки. т.е. «паротепловозостроительный» разобрать по аналогии с «строительный». И лемма в этом случае тоже корректно строится.

Ну или брать композитные части максимальной длины, ну и ограничить формы, которые могут участвовать в словобразовании. Собственно, так сделано в ЭТАПе.

aram_pakhchanian 22 авг 2013 в 21:52

Узкий круг задач называется немецкий язык. :)

Ariman 21 авг 2013 в 18:27

А как решаются задачи с отнесением к той или иной части речи (ну или схожие, как в статье, выделение окончания) со словами типа «батарея» (можно принять за деепричастие), «крокодил» (за глагол прошедшего времени) или «финифть» — (за инфинитив глагола, если будем как в статье искать окончание «ть»)?
Только по словарю? Чтобы потом система не считала нормой фразы «Ты что, совсем обатарел?»)

kzn 21 авг 2013 в 19:13

Обычно, если слово есть в словаре, то оно анализируется только по словарю.
Если его там нет, то практически во всех системах есть в том или ином виде предиктивный анализ, который пробует разборать разными способами:

Разобрать слово по композитам.
Возможно, отрезать некий префикс, так, чтобы усеченное слово было в словаре. Обычно есть настройки на длину оставшегося слова, чтобы слова типа «а» не попадали в разбор
Предсказание по окончаниям. Например, предсказание по: 2м буквам основы, суффиксу(если есть) и окончанию.

Ну и возможны вариации вроде фильтрации по частям речи (например маловероятно, что неизвестное слово — частица или предлог), по статистике — отбрасываем редкие и исключительные варианты (вряд ли неизвестный глагол будет изменяться так же как «быть»).

Но все это обычно не отменяет следующий шаг — выбор одного варианта из нескольких. (Например, разбор слова «мыла» как глагола в «мама мыла раму»).

fsqcds 21 авг 2013 в 20:13

В АОТ эта проблема решается так

Если слово не было предсказано как существительное, тогда в список возможных интерпретации добавляется вариант интерпретации как неизменяемого существительного во всех родах и числах (поскольку ненайденные слова чаще всего существительные).

AlexDodonov 21 авг 2013 в 20:27

При переводе фразы «У меня палец в ухе» (то ли «я ощущаю в ухе палец», то ли «я засунул палец в ухо») — тоже используются результаты статистической обработки?

SKolotienko 21 авг 2013 в 21:51

То ли «я окунул палец в уху»

Зарегистрируйтесь на Хабре, чтобы оставить комментарий