Комментарии 7
Композиты кажется нужны для довольно узкого круга задач.
Можно, как в АОТ, отрезать приставки. т.е. «паротепловозостроительный» разобрать по аналогии с «строительный». И лемма в этом случае тоже корректно строится.
Ну или брать композитные части максимальной длины, ну и ограничить формы, которые могут участвовать в словобразовании. Собственно, так сделано в ЭТАПе.
Можно, как в АОТ, отрезать приставки. т.е. «паротепловозостроительный» разобрать по аналогии с «строительный». И лемма в этом случае тоже корректно строится.
Ну или брать композитные части максимальной длины, ну и ограничить формы, которые могут участвовать в словобразовании. Собственно, так сделано в ЭТАПе.
+1
А как решаются задачи с отнесением к той или иной части речи (ну или схожие, как в статье, выделение окончания) со словами типа «батарея» (можно принять за деепричастие), «крокодил» (за глагол прошедшего времени) или «финифть» — (за инфинитив глагола, если будем как в статье искать окончание «ть»)?
Только по словарю? Чтобы потом система не считала нормой фразы «Ты что, совсем обатарел?»)
Только по словарю? Чтобы потом система не считала нормой фразы «Ты что, совсем обатарел?»)
+1
Обычно, если слово есть в словаре, то оно анализируется только по словарю.
Если его там нет, то практически во всех системах есть в том или ином виде предиктивный анализ, который пробует разборать разными способами:
Ну и возможны вариации вроде фильтрации по частям речи (например маловероятно, что неизвестное слово — частица или предлог), по статистике — отбрасываем редкие и исключительные варианты (вряд ли неизвестный глагол будет изменяться так же как «быть»).
Но все это обычно не отменяет следующий шаг — выбор одного варианта из нескольких. (Например, разбор слова «мыла» как глагола в «мама мыла раму»).
Если его там нет, то практически во всех системах есть в том или ином виде предиктивный анализ, который пробует разборать разными способами:
- Разобрать слово по композитам.
- Возможно, отрезать некий префикс, так, чтобы усеченное слово было в словаре. Обычно есть настройки на длину оставшегося слова, чтобы слова типа «а» не попадали в разбор
- Предсказание по окончаниям. Например, предсказание по: 2м буквам основы, суффиксу(если есть) и окончанию.
Ну и возможны вариации вроде фильтрации по частям речи (например маловероятно, что неизвестное слово — частица или предлог), по статистике — отбрасываем редкие и исключительные варианты (вряд ли неизвестный глагол будет изменяться так же как «быть»).
Но все это обычно не отменяет следующий шаг — выбор одного варианта из нескольких. (Например, разбор слова «мыла» как глагола в «мама мыла раму»).
0
В АОТ эта проблема решается так
Если слово не было предсказано как существительное, тогда в список возможных интерпретации добавляется вариант интерпретации как неизменяемого существительного во всех родах и числах (поскольку ненайденные слова чаще всего существительные).
0
При переводе фразы «У меня палец в ухе» (то ли «я ощущаю в ухе палец», то ли «я засунул палец в ухо») — тоже используются результаты статистической обработки?
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Псевдолемматизация, композиты и прочие странные словечки