Эволюция метрик качества машинного перевода

webhamster 2 июл 2024 в 12:57

Получается, что ни одна метрика не учитывает литературность перевода. И все зависит от адекватности переводчика, который предлагает базовый перевод.

Вот варианты некоторого перевода, по-сути идентичные:

I don’t know how long it would take since I’ve never done fine tuning

Я не знаю, сколько времени это займет, поскольку никогда не занимался тонкой настройкой.

Я не знаю, сколько времени потребуется, так как я никогда не делал тонкую настройку.

Здесь любой адекватный переводчик скажет, что если в русском тексте встречается слово "это", то стоит напрячься. Потому что в большинстве своем в английском it - это "ссылка назад", то о чем говорилось, но не "это". И если удалось избежать "это", то это успех.

Так вот, избегание "это" достигается большой вариативностью. Поскольку надо проявить хорошую словесную изобретательность, чтобы сделать хороший перевод. И эта изобретательность в референсных текстах размывает понятие усредненно-хорошего перевода. А усредненно-хорошими референсами становятся именно те где будет тупо использоваться "это" - как минимум они будут хорошо кореллировать друг с другом, а литературные - нет.

Получается, что все эти метрики не подходят для тренировки действительно хорошего автоматического переводчика.

Эволюция метрик качества машинного перевода — Часть 1

Комментарии 1

Публикации