Как стать автором
Обновить

Комментарии 7

Композиты кажется нужны для довольно узкого круга задач.

Можно, как в АОТ, отрезать приставки. т.е. «паротепловозостроительный» разобрать по аналогии с «строительный». И лемма в этом случае тоже корректно строится.

Ну или брать композитные части максимальной длины, ну и ограничить формы, которые могут участвовать в словобразовании. Собственно, так сделано в ЭТАПе.
Узкий круг задач называется немецкий язык. :)
А как решаются задачи с отнесением к той или иной части речи (ну или схожие, как в статье, выделение окончания) со словами типа «батарея» (можно принять за деепричастие), «крокодил» (за глагол прошедшего времени) или «финифть» — (за инфинитив глагола, если будем как в статье искать окончание «ть»)?
Только по словарю? Чтобы потом система не считала нормой фразы «Ты что, совсем обатарел?»)
Обычно, если слово есть в словаре, то оно анализируется только по словарю.
Если его там нет, то практически во всех системах есть в том или ином виде предиктивный анализ, который пробует разборать разными способами:
  • Разобрать слово по композитам.
  • Возможно, отрезать некий префикс, так, чтобы усеченное слово было в словаре. Обычно есть настройки на длину оставшегося слова, чтобы слова типа «а» не попадали в разбор
  • Предсказание по окончаниям. Например, предсказание по: 2м буквам основы, суффиксу(если есть) и окончанию.


Ну и возможны вариации вроде фильтрации по частям речи (например маловероятно, что неизвестное слово — частица или предлог), по статистике — отбрасываем редкие и исключительные варианты (вряд ли неизвестный глагол будет изменяться так же как «быть»).

Но все это обычно не отменяет следующий шаг — выбор одного варианта из нескольких. (Например, разбор слова «мыла» как глагола в «мама мыла раму»).
В АОТ эта проблема решается так
Если слово не было предсказано как существительное, тогда в список возможных интерпретации добавляется вариант интерпретации как неизменяемого существительного во всех родах и числах (поскольку ненайденные слова чаще всего существительные).
При переводе фразы «У меня палец в ухе» (то ли «я ощущаю в ухе палец», то ли «я засунул палец в ухо») — тоже используются результаты статистической обработки?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий