All streams
Search
Write a publication
Pull to refresh
10
0
KMiNT21 @KMiNT21

old-school

Send message

Как добиться идеального качества локализации с автоматическим переводом нейронками?

Да все просто -- дать контекст!

Казалось бы, ML продукт, а на сайте перевод уровня 90-x. :) Train -- это ПОЕЗД, понимаешь ли, а модели -- это режимы. :)

Испанский стыд...
Испанский стыд...

Обычно типичная проблема «олд-скульного» подхода -- недостаток контекста. Даже если переводить самыми современными нейросетями, нельзя абсолютно всегда получать корректный результат, если подавать на вход какие-нибудь пункты меню, либо отдельные названия предметов в игре, либо пункты меню на сайте. Просто потому, что слова могут иметь несколько значений.

Современное решение довольно простое. Текстовые файлы для локализаций должны описываться в специальном формате, где каждый элемент будет иметь контекст, который используется лишь для описания объекта для нейросети, а само целевое слово/предложение будет выделяться (например, квадратыми скобками [ ] ) .

Например, у нас какой-то редактор с комнатой и кнопка "изменить пол". Без понимания контекста любая нейронка переведет это как "change gender", так что переводчику прийдется вручную эту ошибку исправлять.

Но если мы укажем

пункт меню для изменения дизайна вида поверхности пола в помещении: [изменить пол]

то нейросеть поймет контекст и выдаст нам корректный результат

Menu item to change the design of the floor surface view in the room: [change floor]

Нам остается только взять нужный текст внутри квадратных скобок, отбросив ненужный уже контекст.

Tags:
Total votes 1: ↑1 and ↓0+1
Comments2

Давно у меня вызревает план написания своего личного AI ассистента, но отсутствие возможности качественно распознавать речь локально вынуждало отложить реализацию.

Сейчас Whisper ai побуждает таки взяться за это дело. Теперь надо решить с Intent Recognition (Classification). Этот вопрос раньше тоже не добавлял вдохновения, так как были сомнения по поводу простоты подготовки тренировочных данных для обучения. Но с chatGPT это уже вообще больше не вопрос (примеры)! И вот это уже реально мотивирует.

А теперь вопрос. Что лучше взять для этих целей в 2023-м году? DeepPavlov? Rasa NLU? Или что-то на базе BERT-а?

Total votes 8: ↑8 and ↓0+8
Comments1

Information

Rating
5,319-th
Location
Украина
Date of birth
Registered
Activity