Как стать автором
Обновить
0
Microsoft
Microsoft — мировой лидер в области ПО и ИТ-услуг

Учим машину разбираться в языках

Время на прочтение 4 мин
Количество просмотров 4.8K
Автор оригинала: Ari Bornstein
Хабр, привет! Мы уже рассказывали вам несколько раз про нашу интеллектуальную службу распознавания речи — LUIS. И в этих историях всегда была одна проблема: LUIS крутой, но не понимает русский язык. Сегодня всё изменится. Под катом вы узнаете о методе добавления поддержки дополнительных языков в LUIS с помощью службы Translation Cognitive API.



Moed.ai — израильский стартап, позволяющий поставщикам услуг управлять своими рабочими календарями и вносить в них новые события с помощью единой облачной платформы, доступной с любого устройства.

Используя панель управления Moed.ai, пользователи могут планировать выполнение услуг, использование ресурсов и другие события. Под ресурсами здесь подразумеваются как объекты, например машины и переговорные комнаты, так и работники, к примеру водители-испытатели и торговые представители авто-дилера. Платформа Moed.ai позволяет планировать использование каждого из ресурсов и подстраивать под их доступность встречи с клиентами.

В настоящее время Moed.ai работает над созданием чат-ботов для каждого из своих заказчиков, чтобы клиенты этих компаний могли планировать выполнение услуг на удобном им языке привычным способом (в мессенджере Facebook, через Skype или Slack и т. д.).

Проблема


Moed.ai — израильская компания, поэтому для многих ее клиентов родной язык — иврит. Англоязычная версия чат-бота Moed.ai умеет выделять из сообщения пользователя намерение и сущности, и компания хочет создать программу на иврите с таким же функционалом. К сожалению, в платформе LUIS, которую компания планировала использовать для выделения намерений и сущностей, в настоящее время нет официальной поддержки иврита.

Решение


Целью совместной работы с Moed.ai было найти способ добавить поддержку иврита в LUIS с помощью когнитивной службы перевода (Translation Cognitive Service). В ходе работы мы сравнили два способа обеспечения поддержки иврита. Первый способ — загрузка текста, переведенного когнитивного сервиса, напрямую в существующую модель LUIS для английского языка — показал неудовлетворительные результаты, однако нам удалось создать более успешный метод.

Мы по-новому подошли к процессу обучения модели LUIS: вместо вычитанных английских фраз мы использовали в качестве примеров неотредактированный машинный перевод. Этот подход позволил нам преодолеть существенные различия между переводом, выполненным машиной, и правильной человеческой речью.

Чтобы понять, почему этот метод работает, рассмотрим следующую ситуацию.

Предположим, что пользователь обращается к программе четырьмя предложениями на иврите:
  אני רוצה לקבוע פגישה
  אני רוצה לקבוע נסיעת מבחן 
  אני רוצה לקבוע נסיעת מבחן למחר
  אפשר לקבוע נסיעת מבחן למחר?

Правильный английский перевод этих предложений таков:
I want to schedule a meeting.
I want to schedule a test drive.
I want to schedule a test drive for tommorrow.
Can I schedule a test drive tomorrow?

Однако служба машинного перевода выдает следующий результат:
I want to schedule an appointment.
I want to schedule a test drive.
I want to make a test tomorrow.
Can set a test tomorrow?

Перевод первых двух фраз почти идентичен их смыслу, но обратите внимание, что между переводами третьего и четвертого предложений («Я хочу поставить тест завтра», «Я могу установить тест завтра?») и их истинным значением («Я хочу назначить тест-драйв на завтра», «Могу я назначить тест-драйв на завтра?») есть существенная разница.

Например, в обеих фразах система перевода заменила идею «тест-драйв» словом «тест», близким по форме, но очень далеким от смысла исходного текста. Модель LUIS, тренировавшаяся только на правильных предложениях, таких как «Я хочу назначить тест-драйв на завтра», едва ли сможет угадать смысл, скрытый за этой заменой, так как эта ошибка характерна именно для перевода предложений с иврита на английский. Различия в грамматике и словоупотреблении между двумя языками ведут к появлению в переводах одних и тех же неточностей, характерных именно для этой пары языков.

Если же мы будем изначально обучать модель на предложениях, переведенных с иврита, служба быстро научится выявлять несоответствия между некорректным переводом и исходным значением. Со временем модель запомнит, какие именно ошибки в переводе с иврита служба перевода допускает в каждом конкретном контексте, и будет чаще правильно реагировать на запросы.

Руководство по использованию


В этом разделе описан процесс обучения и использования нашего модуля узла для добавления поддержки дополнительных языков для программ-роботов. Предполагается, что пользователь уже создал приложение LUIS и сгенерировал ключ для когнитивной системы перевода (Translation Cognitive Service).

  1. Составьте список команд на необходимом вам языке (в нашем случае на иврите). Например:

    אני רוצה לקבוע פגישה             // I want to schedule an appointment
    אני רוצה לקבוע נסיעת מבחן        // I want to schedule a test drive
    אני רוצה לקבוע נסיעת מבחן למחר   // I want to schedule a test drive for tomorrow
    אפשר לקבוע נסיעת מבחן למחר?      // Can I schedule a test drive tomorrow?
  2. Выполните скрипт «Массовый перевод и импорт в LUIS».
  3. Выделите переводы, намерения и сущности с помощью портала LUIS.
  4. Используйте на портале LUIS программу автоматического обучения и тестирования, чтобы опробовать и еще раз потренировать свою модель, пока она не научится сопоставлять переводы с нового языка с их значениями.
  5. Примените npm-модуль LUIS, чтобы использовать обученную модель LUIS и интегрировать ее в свое приложение.

Код


Исходный код и заметки по использованию описанного метода вы можете найти на GitHub.

Возможности для использования


Описанный в данной статье метод можно использовать для обнаружения намерений и сущностей в тексте на любом естественном языке, поддерживаемом когнитивной службой перевода. Он также применим при локализации многих продуктов вида «общение как платформа», чтобы разговор с программой-роботом был более естественным.



Напоминаем, что Azure можно попробовать бесплатно.

Минутка рекламы. Если вы хотите попробовать новые технологии в своих проектах, но никак не доходят руки, оставляйте заявки в программе Tech Acceleration от Microsoft. Её основная особенность в том, что мы вместе с вами подберём необходимый стек, поможем реализовать пилот и в случае успешной реализации, потратим максимум усилий, чтобы весь рынок узнал о вас.

P.S. Благодарим Костю Кичинского (Quantum Quintum) за иллюстрацию к этой статье.
Теги:
Хабы:
+19
Комментарии 1
Комментарии Комментарии 1

Публикации

Информация

Сайт
www.microsoft.com
Дата регистрации
Дата основания
Численность
Неизвестно
Местоположение
США

Истории