Как стать автором
Обновить
4
Карма
0
Рейтинг
Борис Тихомиров @boris_tikhomirov

Управление продуктом

  • Подписчики 2
  • Подписки

Диалектика нейронного машинного перевода

Приведенные Вами переводы еще раз демонстрируют одно из основных положений моей статьи: есть большая разница между «бытовым» переводом для повседневных задач и переводом для целей бизнеса. И во втором случае дело не только в технологии, но и в возможности настройки, потому что ни одна система не дает приемлемого перевода данной фразы без настройки. И это видно из примеров.

Настройка, кстати, тоже сильно зависит от технологии. Нейронный перевод безусловно настраивается, но это пока и его слабое место, так как требуются большие вычислительные мощности и время на эксперименты. Наше преимущество все-таки в том, что все технологии, которые мы давно развиваем и решаем с их помощью конкретные бизнес-задачи, имеют мощные средства для настройки в достаточно сжатые сроки, и выросло это все в работе с конкретными заказчиками.

Диалектика нейронного машинного перевода

Статья о том, что нейронный перевод сам по себе никак не решает конкретные задачи бизнеса, и мы привели примеры, где сравнили наши ненейронные движки и нейронный перевод от Google. Не очень понятно, откуда Вы делаете выводы, что PROMT отказывается от использования NMT. И в статье, и отдельно в комментариях я говорил, что мы ведем разработки в том числе и в направлении NMT, и выбор того, какой движок использовать, зависит от конкретной задачи клиента.

Что касается бенчмарков по ссылке, то нам ничего не известно ни про компанию, проводившую измерение, ни про точную методику данного измерения, ни про корпуса, на которых измерение проводили. Так что комментировать там что-то сложно. В презентации упоминается метрика – normalized hLEPOR score. Кажется, это одна из метрик, представленная на семинаре по машинному переводу ACL-WMT, где ежегодно проводятся сравнение технологий перевода от разных провайдеров и технологий оценки качества перевода. Метрика не является отраслевым стандартом, и у нас нет опыта ее использования, мы не знаем, насколько она точна для морфологически богатых языков, например, русского. В своей работе мы используем давно зарекомендовавшие себя, несмотря на ограничения, метрики METEOR, BLEU.

Мы также регулярно участвуем как провайдер МП в семинарах ACL-WMT и в проводимых ими сравнениях систем перевода. Вот, например, ссылка на результаты 2016 года: http://statmt.org/wmt16/pdf/W16-2301.pdf (страница 141). Как видно, самый точный результат для англо-русского перевода у PROMT. В данном случае была использована как автоматическая оценка, так и экспертная, где носители языка ранжируют переводы в зависимости от их качества. Так что твердо уверен, что у нас точно не самый слабый результат по accuracy.

Диалектика нейронного машинного перевода

Мы приняли решение не использовать NMT без разбору везде, где только ни появится задача перевода. Наш подход в том, что каждой задаче — своя технология. Мы сейчас используем активно rule based перевод, статистический перевод или технологию Deep Hybrid — в зависимости от задач клиента. И на тех задачах, где нейронные сети будут давать выигрыш в качестве, будем использовать их. Исследования в эту сторону тоже идут.

Диалектика нейронного машинного перевода

Не очень понятно, что именно Вы подразумеваете под «проще». Мне сложно что-то ответить. Тот факт, что в нейронной сети тренируется одна модель, а в статистическом движке и rule based может быть настройка нескольких компонентов, не делает нейронный переводчик более простым.

Тренировка нейронного переводчика требует больше ресурсов, чем статистический, и не только вычислительных, но и человеческих, иначе сложно сделать что-то приличное. Именно поэтому качественного результата тут по сути достиг пока только Google, у которых много корпусов, много ресурсов, и даже при этом они потратили несколько лет прежде, чем перейти со статистики на нейронку.

Диалектика нейронного машинного перевода

На Translate.Ru Вы не найдете перевода, о котором написано в статье, потому, что речь о решении, которое специально настраивалось на клиента. Перевод в Google Translate тоже будет другим, если взять в учет регистр «ROUND TRIP INSTANT PURCHASE FARES», как обычно и пишут в правилах применения тарифов.

Диалектика нейронного машинного перевода

Никто никого не очерняет. Мы пишем, что нейронный переводчик Google лучше как универсальный переводчик. Тема секции на РИФе, где был этот доклад, была про нейронные сети в бизнесе, и обсуждался вопрос стоит ли бросаться и применять нейронки везде без разбору. Наш подход в том, что каждой задаче — своя технология.

Диалектика нейронного машинного перевода

NMP — это опечатка, конечно. Спасибо, что заметили. Исправил.

Что касается нейронного перевода от PROMT, то он будет использоваться для наших клиентов на тех задачах, где качество сможет быть лучше, чем любой другой подход. Пока мы находимся на таком этапе, что наш подход позволяет более качественно решать конкретные задачи наших клиентов без применения нейронных сетей. Статья как раз об этом.

Но это не значит, что мы не занимаемся исследованиями и разработками в этом направлении.

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Дата рождения
Зарегистрирован
Активность