Пользователи Lokalise могут выбирать, локализовать им свой продукт с привлечением наёмных переводчиков площадки, с собственной командой или исключительно своими силами. Именно для упрощения процедуры локализации тех проектов, где профессиональные переводчики не нужны и достаточно собственных знаний языка, мы и предоставляем нашим пользователям возможность использовать встроенные в Lokalise популярные системы машинного перевода от Google, Yandex, Microsoft и SDL. О том, как переводят эти системы, мы сегодня и поговорим на конкретных примерах.
Около полугода назад компания Google заявила о подключении очередного набора языков к нейронной сети своего сервиса Google Translate, в том числе и русского. Событие это стало знаковым для всего русскоязычного интернет-пространства: ежедневно тысячи человек пользуются встроенным в Chrome переводчиком Google или идут на сайт Google Translate за переводом иностранного текста на родной язык.
Google Translate все еще сохранил множество черт классического машинного переводчика на базе правил: при переводе того или иного слова сервис отображает, кроме основного, наиболее приемлемого варианта перевода слова и все его значения в качестве различных частей речи. В одной из наших прошлых публикаций-переводов мы уже рассказывали о нейронном машинном переводе и том, как он работает.
Нейронный перевод, в отличие от основанного на жестких правилах статистического перевода, использует сложную и не всегда очевидную векторную систему сравнений, для того чтобы подобрать наиболее подходящий перевод исходя из контекста. Конечно, выходит не всегда удачно, но чаще всего Google Translate достаточно успешно справляется с поставленными перед ним задачами.
Анализ контекста в поле перевода в Google Translate очень просто проверить. Для теста мы введем несколько слов и словосочетаний, которые могут использоваться в интерфейсе 90% приложений и посмотрим, что нам предложит переводчик от поискового гиганта:
Кажется, задача крайне простая, но интеллектуальная сторона Google Translate проявляется в одном маленьком нюансе: в переводе слова «Home». Исходя из контекста переводчик предложил вариант «Главная», который ближе всего подходит по смыслу, если речь идет об интерфейсе программного обеспечения в разрезе использования на просторах сети. При этом, если мы устраним контекст в виде «app settings» и прочих слов, перевод останется неизменным — «Главная». Все прочие варианты в виде «дома» и «жилища» будут предложены в виде списка под формой перевода:
Добиться от Google Translate «машинного» в привычном смысле этого слова перевода «Home» как «Дом» или «Дома» можно только при добавлении контекста — минимального, в виде предлога «at». С предлогом Google Translate дружит и моментально переводит «at home» как «дома».
Дадим переводчику поискового гиганта более сложное задание, а именно первое предложение романа Теодора Драйзера «Сестра Керри». В оригинале оно выглядит следующим образом:
В ставшем уже классическим советском переводе Марка Григорьевича Волосова (1895-1941) это предложение выглядит так:
Вот как с переводом этого не самого простого предложения справился Google Translate:
Объективно, для машины результат превосходный. В предпочтительном переводе сеть потеряла слово «train», но оно присутствует в одном из вариантов. Также проблемы возникли с «imitation alligator-skin satchel» и «four dollars in money». В остальном сеть выполнила перевод на более чем достойном для понимания уровне, который требует лишь стилистической обработки.
Компания «Яндекс» любит позиционировать себя лучшей во всем в рамках российского рынка и даже в обход запретов ФАС заявляет, что является «поиском №1», например. Справедливо ли это утверждение и для прочих продуктов компании, можно будет проверить на работе встроенного переводчика «Яндекса», который разместился даже на схожем с его старшим братом от Google домене — translate.yandex.ru.
О переводчике «Яндекса» было написано много, причем самими разработчиками. На собственном сайте разработчики компании сразу же признаются, что переводчик «Яндекса» — статистический. Чтобы было понятнее и не приходилось возвращаться к упоминаемому выше тексту о переводчиках: вкратце, статистический перевод подразумевает перебор всех возможных вариантов с вычислением наиболее подходящего. Также можно привести целый слайд, который нарисовала команда, чтобы более наглядно показать способ работы переводчика «Яндекса»:
Этот переводчик изначально проигрывает Google Translate, так как в его основе не лежит самообучающаяся нейросеть. Однако у команды «Яндекса» был как минимум один козырь: они могли постараться сделать работу переводчика по паре «Английский-Русский» максимально корректной, так как, очевидно, основная целевая аудитория продукта — русскоязычные пользователи.
Итак, скормим «Яндекс» Переводчику тот же набор слов, которым мы изначально проверяли Google Translate:
В итоге у нас два промаха: «Варианты» вместо ожидаемых «Опций», «Дома» вместо «Главная». При этом переводчик упорствует и предлагает перевод «Home» в контексте «Главная» только в связке со словом «menu». В прочих вариантах перевода слово «Home» вариант с «Главной», так удобно подсунутый в Google Translate исходя из потребности интернет-аудитории, вовсе опущен куда-то на самое дно. Переводчик предлагает исключительно общий вариант «Дом», «Дома» и так далее.
Теперь посмотрим, как машинный перевод «Яндекса» справится с творчеством Драйзера:
На длинной дистанции в виде сложных конструкций проблемы старшей технологии становятся более явными. Да, несколько лет назад примерно так же переводил и Google Translate, но сейчас разница, как говорится, «налицо».
Переводчик «Яндекса» испытывает те же проблемы, с которыми сталкиваются и люди, изучающие русский язык: он переводит слишком буквально, используя меньше контекста, и не понимает падежи. Вообще, падежи — это боль любого иностранца. Мы, как носители языка, с детства тренирующиеся правильно употреблять падежи, не понимаем, насколько это на самом деле сложно. Думаем, разбирать все ошибки переводчика «Яндекса» нет смысла: природа машинного статистического перевода очень ярко показана на примере выше. Единственное, с чем отлично справилось отечественное детище — это форма записи названия улицы.
Да, разработчики заявляют, что они используют и машинное обучение, и словари. Однако, очевидно, что для обработки сложных текстов или понимания контекста, этого недостаточно.
Следующий в списке подключенных к Lokalise онлайн-переводчиков — продукт компании Microsoft, который используется их поисковой системой Bing. К слову, переводчик Bing более популярен в мире, чем можно сразу подумать: он встроен во все официальные приложения для Windows Phone (например, в приложение Twitter), используется вместе с поиском по умолчанию в Edge для Windows 10, «прикручен» к Skype.
Еще одна отличительная черта Bing — использование нейронных сетей. Сначала нейросети подключили к поиску Bing, чтобы сделать его более интеллектуальным и расширить таблицу индексации страниц, которая была в два раза меньше, чем у Google. Это произошло еще в начале 2015 года. Позднее нейросети добрались и до переводчика Bing. Таким образом, можно утверждать, что переводчик Bing находится практически в одной «весовой категории» с Google Translate.
Как и ранее, сначала проверим, как Bing Translator отработает простой набор интересующих нас слов:
В общих чертах, переводчик от Microsoft справился лучше, чем система от «Яндекса», но при этом он позволил себе намного больше вольностей, чем Google Translate. В случае с нашим камнем преткновения — словом «Home» — Bing попытался выкрутиться и предложил вариант «Домой», который ассоциируется с кнопкой «Home», но уж точно не с «Домом» и «Жилищем» в случае «Яндекса». С другой стороны, спорный перевод «Tools» как «средства» вызывает некоторые вопросы. При этом машинный переводчик «Яндекса» перевел это однозначно как «Инструменты». Возможно, Bing даже чересчур творческий, так что стоит проверить его Драйзером:
В защиту Bing Translator можно сразу сказать, что пока из всех трех переводчиков только он корректно уловил суть словосочетания «the afternoon train». Переводчик «Яндекса» сделал этот послеполуденный поезд вечерним, а Google Translate и вовсе «прикинулся шлангом» и проигнорировал существование поезда как такового. Как и его собратья, Bing споткнулся на «дешевой имитации мешка с аллигатором», а еще напортачил со «снаряжением» и «багажником».
В целом, можно сказать, что Bing справился чуть лучше «Яндекса», но до Google Translate в переводе сложных конструкций ему еще очень далеко. Вероятно, сказывается нехватка выборки и примеров для нейросети Bing, так как переводчик Google, очевидно, намного популярнее и обладает большими ресурсами.
Последний в нашем списке подключенных к Lokalise переводчиков — бесплатный онлайн-переводчик SDL. Вообще, SDL — это сервис по переводу и, в том числе, локализации. За определенную сумму там можно заказать профессиональный перевод, например, документации по выбранному языковому направлению. Как бонус, SDL держит собственный машинный онлайн-переводчик, который и подключен к интерфейсу Lokalise.
Уже привычно проверим, как SDL справится с набором слов, используемых для подписи кнопок в приложении:
С первого взгляда видно, что SDL — самый «машинный» переводчик из всех четырех. Он сохраняет порядок слов исходного языка в случае словосочетаний. На удивление, многострадальное «Home» SDL перевел как «Главная», так же, как и Google Translate. Больше сказать об SDL сложно, так как уровень перевода даже простейших словосочетаний видно на скриншоте.
Теперь устроим переводчику проверку нашей Каролиной Мибер и ее «дешевой имитацией мешка с аллигатором»:
Единственное, с чем справился онлайн-переводчик SDL — это «поезд во второй половине дня». Однако сама форма перевода нарушает причинно-следственную связь «кто и где», в итоге полностью меняя смысл предложения — в трех предыдущих случаях этого не произошло. С середины предложения начинается вовсе какая-то несуразица. На примере этого предложения видно, что SDL приспособлен только к прямому, как стрела, односложному переводу, а реальные конструкции и предложения выдают нечто уровня легендарного «промтовского» перевода середины нулевых.
Три из четырех подключенных к Lokalise онлайн-переводчиков более-менее достойно справляются как с односложными конструкциями, так и со сложными предложениями американских классиков. По совокупности показателей впереди, ожидаемо, Google Translate, но он не всегда отрабатывает целиком и полностью корректно. Намного лучше, чем ожидалось, показал себя переводчик Bing от Microsoft. По всей видимости, виной тому использование нейронных сетей. В некоторых аспектах Bing переводил даже лучше Google Translate.
Стоит крайне аккуратно относиться к переводчику «Яндекса». Понятно, что у компании нет таких ресурсов, как в Google и Microsoft, но на их фоне переводчик российской компании выглядит слабо, особенно, с учетом того, что игра велась на его родном поле — мы переводили с английского на русский. Почему разработчики не смогли показать максимум именно на этой, мы уверены, самой популярной языковой паре и оправдать заявления маркетологов о "№1 в России" — загадка.
SDL ожидаемо не показал ничего толкового, во всяком случае, для 2017 года. Это просто машинный переводчик, не слишком сообразительный и слишком прямолинейный. Возможно, он подойдет для каких-то специфических целей или просто для перепроверки конкретного слова как один из источников, но не более того.
Резюмируя, хотелось бы сказать, что для получения качественного перевода, к которому не нужно будет потом возвращаться и переделывать, придется пользоваться всеми возможными инструментами. Конечно, лучшим вариантом было бы привлечение живого человека, но если вы ограничены в ресурсах, будь то время или деньги, то не брезгуйте пользоваться всей «тройкой финалистов» в лице Google, «Яндекса» и даже Bing.
Платформа локализации для разработчиков мобильных и веб-проектов:
Google Machine Translate/Google Neural Translate
Около полугода назад компания Google заявила о подключении очередного набора языков к нейронной сети своего сервиса Google Translate, в том числе и русского. Событие это стало знаковым для всего русскоязычного интернет-пространства: ежедневно тысячи человек пользуются встроенным в Chrome переводчиком Google или идут на сайт Google Translate за переводом иностранного текста на родной язык.
Google Translate все еще сохранил множество черт классического машинного переводчика на базе правил: при переводе того или иного слова сервис отображает, кроме основного, наиболее приемлемого варианта перевода слова и все его значения в качестве различных частей речи. В одной из наших прошлых публикаций-переводов мы уже рассказывали о нейронном машинном переводе и том, как он работает.
Нейронный перевод, в отличие от основанного на жестких правилах статистического перевода, использует сложную и не всегда очевидную векторную систему сравнений, для того чтобы подобрать наиболее подходящий перевод исходя из контекста. Конечно, выходит не всегда удачно, но чаще всего Google Translate достаточно успешно справляется с поставленными перед ним задачами.
Анализ контекста в поле перевода в Google Translate очень просто проверить. Для теста мы введем несколько слов и словосочетаний, которые могут использоваться в интерфейсе 90% приложений и посмотрим, что нам предложит переводчик от поискового гиганта:
Кажется, задача крайне простая, но интеллектуальная сторона Google Translate проявляется в одном маленьком нюансе: в переводе слова «Home». Исходя из контекста переводчик предложил вариант «Главная», который ближе всего подходит по смыслу, если речь идет об интерфейсе программного обеспечения в разрезе использования на просторах сети. При этом, если мы устраним контекст в виде «app settings» и прочих слов, перевод останется неизменным — «Главная». Все прочие варианты в виде «дома» и «жилища» будут предложены в виде списка под формой перевода:
Добиться от Google Translate «машинного» в привычном смысле этого слова перевода «Home» как «Дом» или «Дома» можно только при добавлении контекста — минимального, в виде предлога «at». С предлогом Google Translate дружит и моментально переводит «at home» как «дома».
Дадим переводчику поискового гиганта более сложное задание, а именно первое предложение романа Теодора Драйзера «Сестра Керри». В оригинале оно выглядит следующим образом:
When Caroline Meeber boarded the afternoon train for Chicago, her total outfit consisted of a small trunk, a cheap imitation alligator-skin satchel, a small lunch in a paper box, and a yellow leather snap purse, containing her ticket, a scrap of paper with her sister's address in Van Buren Street, and four dollars in money.
В ставшем уже классическим советском переводе Марка Григорьевича Волосова (1895-1941) это предложение выглядит так:
Когда Каролина Мибер садилась в поезд, уходивший днем в Чикаго, все ее имущество заключалось в маленьком сундучке, дешевеньком чемодане из поддельной крокодиловой кожи, коробочке с завтраком и желтом кожаном кошельке, где лежали железнодорожный билет, клочок бумаги с адресом сестры, жившей на Ван-Бьюрен-стрит, и четыре доллара.
Вот как с переводом этого не самого простого предложения справился Google Translate:
Когда Кэролайн Мибер села на полдень в Чикаго, ее общий наряд состоял из небольшого сундука, дешевой подражательной сумки для аллигатора, маленького обеда в бумажной коробке и желтого кожаного кошелька, содержащего ее билет, клочок бумаги С адресом ее сестры на улице Ван Бурена и четыре доллара в деньгах.
Объективно, для машины результат превосходный. В предпочтительном переводе сеть потеряла слово «train», но оно присутствует в одном из вариантов. Также проблемы возникли с «imitation alligator-skin satchel» и «four dollars in money». В остальном сеть выполнила перевод на более чем достойном для понимания уровне, который требует лишь стилистической обработки.
Переводчик «Яндекса»
Компания «Яндекс» любит позиционировать себя лучшей во всем в рамках российского рынка и даже в обход запретов ФАС заявляет, что является «поиском №1», например. Справедливо ли это утверждение и для прочих продуктов компании, можно будет проверить на работе встроенного переводчика «Яндекса», который разместился даже на схожем с его старшим братом от Google домене — translate.yandex.ru.
О переводчике «Яндекса» было написано много, причем самими разработчиками. На собственном сайте разработчики компании сразу же признаются, что переводчик «Яндекса» — статистический. Чтобы было понятнее и не приходилось возвращаться к упоминаемому выше тексту о переводчиках: вкратце, статистический перевод подразумевает перебор всех возможных вариантов с вычислением наиболее подходящего. Также можно привести целый слайд, который нарисовала команда, чтобы более наглядно показать способ работы переводчика «Яндекса»:
Этот переводчик изначально проигрывает Google Translate, так как в его основе не лежит самообучающаяся нейросеть. Однако у команды «Яндекса» был как минимум один козырь: они могли постараться сделать работу переводчика по паре «Английский-Русский» максимально корректной, так как, очевидно, основная целевая аудитория продукта — русскоязычные пользователи.
Итак, скормим «Яндекс» Переводчику тот же набор слов, которым мы изначально проверяли Google Translate:
В итоге у нас два промаха: «Варианты» вместо ожидаемых «Опций», «Дома» вместо «Главная». При этом переводчик упорствует и предлагает перевод «Home» в контексте «Главная» только в связке со словом «menu». В прочих вариантах перевода слово «Home» вариант с «Главной», так удобно подсунутый в Google Translate исходя из потребности интернет-аудитории, вовсе опущен куда-то на самое дно. Переводчик предлагает исключительно общий вариант «Дом», «Дома» и так далее.
Теперь посмотрим, как машинный перевод «Яндекса» справится с творчеством Драйзера:
Когда Кэролайн Meeber сели вечером на поезд для Чикаго, ее общий наряд состоял из небольшой багажник, дешевая имитация крокодиловой кожи сумка, небольшой обед в бумажной коробке, и желтый оснастки кожаный кошелек, содержащий ее билет, клочок бумаги с ее сестры адрес в Ван-Бурен-стрит, и четыре доллара в деньги.
На длинной дистанции в виде сложных конструкций проблемы старшей технологии становятся более явными. Да, несколько лет назад примерно так же переводил и Google Translate, но сейчас разница, как говорится, «налицо».
Переводчик «Яндекса» испытывает те же проблемы, с которыми сталкиваются и люди, изучающие русский язык: он переводит слишком буквально, используя меньше контекста, и не понимает падежи. Вообще, падежи — это боль любого иностранца. Мы, как носители языка, с детства тренирующиеся правильно употреблять падежи, не понимаем, насколько это на самом деле сложно. Думаем, разбирать все ошибки переводчика «Яндекса» нет смысла: природа машинного статистического перевода очень ярко показана на примере выше. Единственное, с чем отлично справилось отечественное детище — это форма записи названия улицы.
Да, разработчики заявляют, что они используют и машинное обучение, и словари. Однако, очевидно, что для обработки сложных текстов или понимания контекста, этого недостаточно.
Переводчик от Microsoft — Bing Translator
Следующий в списке подключенных к Lokalise онлайн-переводчиков — продукт компании Microsoft, который используется их поисковой системой Bing. К слову, переводчик Bing более популярен в мире, чем можно сразу подумать: он встроен во все официальные приложения для Windows Phone (например, в приложение Twitter), используется вместе с поиском по умолчанию в Edge для Windows 10, «прикручен» к Skype.
Еще одна отличительная черта Bing — использование нейронных сетей. Сначала нейросети подключили к поиску Bing, чтобы сделать его более интеллектуальным и расширить таблицу индексации страниц, которая была в два раза меньше, чем у Google. Это произошло еще в начале 2015 года. Позднее нейросети добрались и до переводчика Bing. Таким образом, можно утверждать, что переводчик Bing находится практически в одной «весовой категории» с Google Translate.
Как и ранее, сначала проверим, как Bing Translator отработает простой набор интересующих нас слов:
В общих чертах, переводчик от Microsoft справился лучше, чем система от «Яндекса», но при этом он позволил себе намного больше вольностей, чем Google Translate. В случае с нашим камнем преткновения — словом «Home» — Bing попытался выкрутиться и предложил вариант «Домой», который ассоциируется с кнопкой «Home», но уж точно не с «Домом» и «Жилищем» в случае «Яндекса». С другой стороны, спорный перевод «Tools» как «средства» вызывает некоторые вопросы. При этом машинный переводчик «Яндекса» перевел это однозначно как «Инструменты». Возможно, Bing даже чересчур творческий, так что стоит проверить его Драйзером:
Когда Кэролайн мибер посадка на послеобеденный поезд в Чикаго, ее общее снаряжение состояло из маленького багажника, дешевой имитации мешка с аллигатором, небольшой ланч в бумажной коробке и желтой кожаной сумочки, содержащей ее билет, лист бумаги с адресом сестры на улице Ван Бюрен, и четыре доллара в деньгах.
В защиту Bing Translator можно сразу сказать, что пока из всех трех переводчиков только он корректно уловил суть словосочетания «the afternoon train». Переводчик «Яндекса» сделал этот послеполуденный поезд вечерним, а Google Translate и вовсе «прикинулся шлангом» и проигнорировал существование поезда как такового. Как и его собратья, Bing споткнулся на «дешевой имитации мешка с аллигатором», а еще напортачил со «снаряжением» и «багажником».
В целом, можно сказать, что Bing справился чуть лучше «Яндекса», но до Google Translate в переводе сложных конструкций ему еще очень далеко. Вероятно, сказывается нехватка выборки и примеров для нейросети Bing, так как переводчик Google, очевидно, намного популярнее и обладает большими ресурсами.
SDL Free Translator
Последний в нашем списке подключенных к Lokalise переводчиков — бесплатный онлайн-переводчик SDL. Вообще, SDL — это сервис по переводу и, в том числе, локализации. За определенную сумму там можно заказать профессиональный перевод, например, документации по выбранному языковому направлению. Как бонус, SDL держит собственный машинный онлайн-переводчик, который и подключен к интерфейсу Lokalise.
Уже привычно проверим, как SDL справится с набором слов, используемых для подписи кнопок в приложении:
С первого взгляда видно, что SDL — самый «машинный» переводчик из всех четырех. Он сохраняет порядок слов исходного языка в случае словосочетаний. На удивление, многострадальное «Home» SDL перевел как «Главная», так же, как и Google Translate. Больше сказать об SDL сложно, так как уровень перевода даже простейших словосочетаний видно на скриншоте.
Теперь устроим переводчику проверку нашей Каролиной Мибер и ее «дешевой имитацией мешка с аллигатором»:
Когда Кэролайн Meeber сел на поезд во второй половине дня в Чикаго, ее костюм состоит из небольших групп СЛ, дешевые имитация аллигатора кожи, фунтами пластитовых небольшой обед в поле бумаги и желтыми кожаными пружинное стопорное сумочке, содержащий ее билет, клочок бумаги с ее сестры адрес в Ван-Бурен Стрит, и четыре долларов в деньги.
Единственное, с чем справился онлайн-переводчик SDL — это «поезд во второй половине дня». Однако сама форма перевода нарушает причинно-следственную связь «кто и где», в итоге полностью меняя смысл предложения — в трех предыдущих случаях этого не произошло. С середины предложения начинается вовсе какая-то несуразица. На примере этого предложения видно, что SDL приспособлен только к прямому, как стрела, односложному переводу, а реальные конструкции и предложения выдают нечто уровня легендарного «промтовского» перевода середины нулевых.
Итого
Три из четырех подключенных к Lokalise онлайн-переводчиков более-менее достойно справляются как с односложными конструкциями, так и со сложными предложениями американских классиков. По совокупности показателей впереди, ожидаемо, Google Translate, но он не всегда отрабатывает целиком и полностью корректно. Намного лучше, чем ожидалось, показал себя переводчик Bing от Microsoft. По всей видимости, виной тому использование нейронных сетей. В некоторых аспектах Bing переводил даже лучше Google Translate.
Стоит крайне аккуратно относиться к переводчику «Яндекса». Понятно, что у компании нет таких ресурсов, как в Google и Microsoft, но на их фоне переводчик российской компании выглядит слабо, особенно, с учетом того, что игра велась на его родном поле — мы переводили с английского на русский. Почему разработчики не смогли показать максимум именно на этой, мы уверены, самой популярной языковой паре и оправдать заявления маркетологов о "№1 в России" — загадка.
SDL ожидаемо не показал ничего толкового, во всяком случае, для 2017 года. Это просто машинный переводчик, не слишком сообразительный и слишком прямолинейный. Возможно, он подойдет для каких-то специфических целей или просто для перепроверки конкретного слова как один из источников, но не более того.
Резюмируя, хотелось бы сказать, что для получения качественного перевода, к которому не нужно будет потом возвращаться и переделывать, придется пользоваться всеми возможными инструментами. Конечно, лучшим вариантом было бы привлечение живого человека, но если вы ограничены в ресурсах, будь то время или деньги, то не брезгуйте пользоваться всей «тройкой финалистов» в лице Google, «Яндекса» и даже Bing.
Платформа локализации для разработчиков мобильных и веб-проектов: