Pull to refresh

Как добиться идеального качества локализации с автоматическим переводом нейронками?

Да все просто -- дать контекст!

Казалось бы, ML продукт, а на сайте перевод уровня 90-x. :) Train -- это ПОЕЗД, понимаешь ли, а модели -- это режимы. :)

Испанский стыд...
Испанский стыд...

Обычно типичная проблема «олд-скульного» подхода -- недостаток контекста. Даже если переводить самыми современными нейросетями, нельзя абсолютно всегда получать корректный результат, если подавать на вход какие-нибудь пункты меню, либо отдельные названия предметов в игре, либо пункты меню на сайте. Просто потому, что слова могут иметь несколько значений.

Современное решение довольно простое. Текстовые файлы для локализаций должны описываться в специальном формате, где каждый элемент будет иметь контекст, который используется лишь для описания объекта для нейросети, а само целевое слово/предложение будет выделяться (например, квадратыми скобками [ ] ) .

Например, у нас какой-то редактор с комнатой и кнопка "изменить пол". Без понимания контекста любая нейронка переведет это как "change gender", так что переводчику прийдется вручную эту ошибку исправлять.

Но если мы укажем

пункт меню для изменения дизайна вида поверхности пола в помещении: [изменить пол]

то нейросеть поймет контекст и выдаст нам корректный результат

Menu item to change the design of the floor surface view in the room: [change floor]

Нам остается только взять нужный текст внутри квадратных скобок, отбросив ненужный уже контекст.

Tags:
Total votes 1: ↑1 and ↓0+1
Comments2

Articles