Как стать автором
Обновить

Подготовка текста к машинному переводу на разные языки

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.2K

Машинный перевод — отличный инструмент для передачи смысла в общих чертах. С его помощью можно быстро переводить большие объемы текста сразу на несколько языков, что особенно важно для локализации в условиях ограниченного времени. Технологии машинного перевода развиваются, поэтому его качество постоянно улучшается, но точность машинного выхода напрямую зависит от целевого языка, движка и исходного текста. 

Наше агентство постоянно изучает новые способы перевода и локализации и делится опытом и знаниями в этой сфере. В статье собраны рекомендации по подготовке текста к машинному переводу на основе советов IBM (Machine translation tips, вебархив). Они помогут оптимизировать процесс перевода и сократить время на постредактирование. 

При адаптации текста к автопереводу на разные языки необходимо уделить внимание стилистике, грамматике, терминологии, пунктуации, орфографии и верстке. Просторечия, неполные предложения, неправильная пунктуация, многозначные слова приведут к ошибкам в переводе. Обо всем по порядку.

Стилистика

  • Составляйте короткие предложения (от 5 до 20 слов): длинные и сложные предложения, в том числе с точкой с запятой, могут стать источником серьезных ошибок при машинном переводе. В одном предложении рекомендуется описывать только одно действие. Если в предложении есть несколько глаголов, которые описывают разные действия, разбивайте такое предложение. При этом чем шире контекст, тем выше шанс получить приемлемый машинный перевод, предложение должно выражать законченную мысль.

  • Откажитесь от незаконченных фраз: где это возможно, используйте полные предложения. Заголовки и подзаголовки должны быть краткими, точно передавать смысл текста и состоять из одной фразы, но в остальных случаях не жалейте букв. Используйте полные предложения, когда вводите в текст вертикальные маркированные списки.

  • Откажитесь от идиом, сленговых и жаргонных слов: заменяйте фразы, буквальный перевод которых не имеет смысла. Например, замените «из коробки» на «работает в стандартной поставке», «на лету» на «динамический», а «рыбу» — на «шаблон».

  • Откажитесь от шуток, сарказма, разговорных выражений, метафор. Не используйте эмотиконы.

  • Откажитесь от речевых излишеств: вкраплений слов, ненужных со смысловой точки зрения. Если какое-либо слово можно вычеркнуть из текста без потери смысла, то это следует сделать.

✅ Время отклика увеличивается…

❌ Следует принимать во внимание, что время отклика увеличивается…

  • Минимизируйте прописные буквы, не пишите фразы полностью капслоком: большие буквы дают подсказку о значении слова. Например, ВЕРА, НАДЕЖДА, ЛЮБОВЬ — три добродетели или три женских имени? Движок машинного перевода не сможет это определить.

  • Замените многозначные единицы текста однозначными: слова, выражения, обороты речи должны обеспечивать контекстуальную точность. Вместо «дед» лучше написать «старик», если это не чей-то кровный родственник (grandfather), а случайный прохожий (old man).

  • Откажитесь от местоимений: где это возможно, замените их существительными.

  • Не используйте страдательный залог: где это возможно, используйте эквивалентную конструкцию в действительном залоге.

✅ Мы определяем наиболее эффективный путь

❌ Определяется наиболее эффективный путь

  • Избегайте чувствительных тем. Потенциально оскорбительный и неприемлемый с точки зрения культуры контент может содержаться даже в стикерах и эмодзи, которые высвечиваются пользователю при наборе текста.

  • Уделите внимание названиям продуктов: часто их не нужно переводить, но движки этого не знают. Прежде чем использовать название продукта, убедитесь, что оно не будет переводиться. При необходимости внесите соответствующие изменения в текст или перевод.

  • Убедитесь, что весь текст написан на одном языке: если весь текст на английском, но в нем есть фразы или отдельные слова на французском, движок будет переводить текст с английского, а не с обоих языков. Сочетание латиницы и кириллицы в одном слове также может привести к искажению смысла.

  • Исключите маркетинговые слоганы: реклама всегда ориентирована на определенную целевую аудиторию, в рекламном сообщении актуализируются свойственные целевой аудитории культурные ценности. Откажитесь от таких слоганов, поскольку у движков, скорее всего, возникнут проблемы с их переводом.

  • Соблюдайте синтаксическое единообразие в перечнях: передавать однородные члены необходимо с помощью одинаковых частей речи. Например, если один пункт начинается с глагола, все остальные пункты также должны начинаться с глагола.

«Локальные устройства способны:

- анализировать структуру трафика,

- определять активные приложения в сети,

- оценивать производительность приложений по каждому потоку.»

  • Откажитесь от слов «пожалуйста» и «спасибо»: в некоторых культурах эти слова, которые часто употребляются между делом как формула вежливости, имеют сакральный смысл.

  • Оформляйте даты в нечисловом формате: числовые форматы дат различаются в зависимости от страны (ДД/ММ/ГГГГ в Великобритании vs ММ/ДД/ГГГГ в США vs ГГГГ/ММ/ДД в Корее, Китае, Иране), поэтому 01.09.03 может означать как 1 сентября 2003 года, так и 9 января 2003 года и 3 сентября 2001 года.

✅ 1 сентября 2003 года

❌ 01.09.03

Грамматика

  • Соблюдайте правила пунктуации: пропуск точек и запятых может привести к неправильному толкованию информации движком машинного перевода.

  • Убедитесь, что существительные согласуются с глаголами по лицам, родам и числам.

  • Используйте глаголы настоящего времени: во многих языках у глаголов нет таких признаков, как залог и время. Где это возможно, замените глаголы будущего и прошедшего времени.

✅ При запуске программы появляется сообщение об ошибке

❌ При запуске программы появится сообщение об ошибке

  • Убедитесь, что местоимения согласуются с существительными по роду, числу и падежу.

  • Уделите внимание позиции определений, дополнений, обстоятельств: они должны стоять рядом с главными словами, а не отдельно от них. Не допускайте разрыва сочетаний, то есть не нарушайте порядок слов.

✅ При вводе команд вы не получаете никаких сообщений от программы

❌ При вводе команд программа не отправляет никаких сообщений вам

  • Откажитесь от конструкций усиления отрицания: например, «никогда не» можно заменить на «всегда».

  • Ограничьте использование причастных, деепричастных, инфинитивных конструкций: замените их придаточными предложениями. Движку сложнее проанализировать причастные и деепричастные обороты и инфинитивы и подобрать для них точные варианты перевода.

  • Не нанизывайте падежи: не используйте словосочетания из трех и более существительных подряд («условий фильтрации мастеров экспорта памяти переводов»).

  • Не используйте слова, которые можно отнести к разным частям речи: некоторые слова, например «простой», могут быть одновременно существительными и прилагательными, что характерно не для всех языков. Если такие слова все же присутствуют в тексте, они должны быть выражены одной частью речи.

  • Не используйте различные синтаксические элементы в качестве однородных: например, глагол и существительное не могут выступать в роли однородных членов.

«Потребности включают в себя следующие:

- для поддержки процессов разворачиваются основные приложения;

- IP-телефония;

- мобильность

  • Вставьте, где необходимо, пропущенные слова.

✅ Названия файлов отображаются прописными буквами, а расширения файлов отображаются строчными буквами.

❌ Названия файлов отображаются прописными буквами, а расширения файлов — строчными.

  • Не опускайте подчинительные союзы (когда, что, чтобы, если и т. д.).

✅ Мы заметили, что страница отображается некорректно.

❌ Мы заметили: страница отображается некорректно.

  • Не выделяйте тире пояснения и дополнения в середине предложения: используйте запятые вместо тире или видоизменяйте текст.

✅ Если страница отображается некорректно, текст съезжает или перекрывает фото, обновите страницу.

❌ Если страница отображается некорректно — текст съезжает или перекрывает фото — обновите страницу.

Терминология

  • Используйте терминологию последовательно: описывайте одни и те же объекты одними и теми же терминами по всему тексту. Не применяйте для одного и того же понятия различные, близкие по смыслу термины (синонимы).

  • Приводите пояснения к специфическим терминам.

  • Не используйте понятия, значения которых могут меняться в зависимости от контекста: к ним относятся, например, «отечественный» и «зарубежный».

  • Соблюдайте правила употребления прописных букв, расстановки переносов, словообразования.

  • Пишите с заглавной буквы только имена собственные.

  • Откажитесь от специальных символов: значения некоторых из них могут меняться в зависимости от контекста. Например, октоторп (#) используется не только как знак номера, но также как знак фунта.

  • Замените сокращения и аббревиатуры полными словами, названиями или словосочетаниями: движки машинного перевода распознают далеко не все общепринятые сокращения.

Пунктуация

  • Не используйте косую черту в сочетаниях «и/или», то есть как знак альтернативности понятий: перепишите предложение так, чтобы оно читалось однозначно и легко.

✅ Изготовитель и адрес производства

❌ Изготовитель и/или адрес производства

  • Не указывайте изменяемые окончания в скобках: используйте фразу «один или более», пишите слово сразу во множественном числе, перефразируйте текст.

✅ Даю согласие

❌ Я согласен(-на)

  • Не используйте амперсанд (&) вместо союза «и».

  • Используйте запятые при перечислении.

✅ Какова сфера вашей деятельности в данный момент (учеба, работа, фриланс)?

❌ Какова сфера вашей деятельности в данный момент (учеба работа фриланс)?

Орфография

  • Убедитесь, что в тексте нет орфографических ошибок: слова с ошибками приведут к искажению смысла в переводе.

  • Соблюдайте единообразие в написании слов: убедитесь, что термины, сокращения и имена собственные всегда пишутся одинаково, включая прописные и строчные буквы.

Верстка

  • Преобразуйте изображения в редактируемый текст.

  • Откажитесь от выделения курсивом, подчеркиванием, полужирным, цветом и прочей разметки.

Машинный перевод без постредактирования может подойти для второстепенных материалов: базы знаний, справки, статей в FAQ, техподдержки, чата с саппортом на лету, комментариев и отзывов. Ожидания по качеству у пользователей такого контента ниже. В остальных случаях к вычитке машинного перевода рекомендуется привлекать постредактора.

Машинный перевод в сервисе Creately.
Машинный перевод в сервисе Creately.
Машинный перевод в сервисе Creately.
Машинный перевод в сервисе Creately.
Машинный перевод справки Microsoft.
Машинный перевод справки Microsoft.

Слабых мест у машинного перевода пока много:

· грамматика (нарушение согласования в падежах, числах, родах, временах);

· синтаксис (порядок слов и структура предложений, несвойственные для языка);

· орфография и пунктуация (употребление диакритических знаков, апострофов, заглавных букв);

· терминология (неверное употребление терминов в тексте, несоблюдение единообразия терминологии);

· смысл и точность перевода (неправильный перевод, опущения, добавления, повторы, машинные неологизмы);

· стиль (смешение стилей, буквальный перевод, сухой информативный язык, который не передает образность);

· форматирование (теги, переменные, ссылки, некорректное отображение знаков);

· зоны локализации (форматы даты и времени, денежные величины, единицы измерения).

Еще одна проблема машинного перевода: на некоторые языки он выполняется через «языки-посредники», так как параллельных текстов все еще недостаточно для обучения движка. Перевод с иврита на русский может выполняться через английский, при этом африканское государство Togo превращается в «Идти».

Машинный перевод на сайте Министерства здравоохранения Израиля.
Машинный перевод на сайте Министерства здравоохранения Израиля.

ИТОГО

Соблюдайте основные требования к изложению при написании текста: хороший перевод начинается с качественного исходного текста.

Выполняйте предредактирование, или подготовку текста к машинному переводу: исправляйте грамматические, пунктуационные и орфографические ошибки в исходном тексте, устраняйте многозначность и упрощайте синтаксическую структуру.

Обращайтесь к постредакторам, если машинный перевод нужно вычитать и отредактировать: эта услуга называется MTPE или PEMT, постредактирование машинного перевода.

Выполняйте тестирование локализации, или LQA: тестировщики вычитывают текст в готовом продукте, фиксируют проблемы и описывают их решения в отдельных файлах или программах.

Разбирайте обратную связь от пользователей: опыт показывает, что не все обращения по проблемам перевода связаны с ошибками, но этот инструмент внешнего контроля качества не стоит недооценивать.

Материал публикуется в целях ознакомления.

Теги:
Хабы:
+10
Комментарии4

Публикации

Истории

Ближайшие события

AdIndex City Conference 2024
Дата26 июня
Время09:30
Место
Москва
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область