Как стать автором
Обновить

Комментарии 56

У переводчиков в ЕС есть целый научный отдел. Так вот, ваша работа уже на голову выше той порнографии, которой они занимаются уже 50 лет.


А вы эту статью на английском не писали?

Пока не писал, но сейчас сотрудничаю с НКРЯ, делаю выравниватель для команды русско-китайского параллельного корпуса.
А чем конкретно занимается этот научный отдел?

У DG TRAD (или как они называются сейчас DGT) есть отдел New Technologies, но по факту насколько я знаю они рабы Trados. Не уверен, есть ли что-то про их работу в публичном пространстве.


В Европарламенте есть свой отдел, занимающийся translation memory, параллельными корпусами и машинным переводом. Там более осмысленно. Вот этот тендер содержит довольно подробную спеку, там по тексту понятно, сколько у них данных в параллельных корпусах.

Спасибо. А на других языках такие места знаете?

Libgen? Gutenberg project?

Да, этими пользуюсь. Ещё обычно нахожу цитату из книги на нужном языке и ищу в гугле прямое соответствие.

Для популярных текстов там же есть и переводы/оригиналы.
Прикольно, нашел «Три товарища» на белорусском и украинском.
— «Небо ще було латунно-жовте й чисте, не закурене димом.»
— «Неба, яшчэ не закопчанае дымам з фабрычнага камiна, было жоўтае, як латунь.»
— «Небо было желтым, как латунь; его еще не закоптило дымом.»

Думаю, надо делать мультиязыные книги.

Интересно как переводы вышли настолько разными. Камин в одном языке вылез внезапно.

А там в следующем предложении идёт речь про фабричные крыши: «За крышами фабрики оно светилось особенно сильно».
Когда я заинтересовался параллельным чтением, я пробовал разные программки, например, от ABBYY, макросы для разделения текста на абзацы, сам писал что-то. В итоге максимум, что я обработал, это не слишком длинный рассказ. Ручная подготовка текстов оказалась чересчур нудна.

В результате экспериментов разных остановился на том, что установил в телефон FBReader, в него интегрировал Fora Dictionary с соответствующими словарями (хоть русско-английскими, хоть английскими толковыми, хоть все вместе, да еще в любом порядке и даже с озвучкой). Словарь вызывается длинным тапом по слову. Затем я переназначил клавишу «Назад» так, чтобы при нажатии на нее появлялся пункт меню «вернуться к предыдущему тексту».

При использовании этой связки я сам определял, что мне сначала читать, английский или русский текст. Одно предложение или несколько страниц. Как часто пользоваться словарем. Никакая синхронизация машинная не нужна. Просто иногда переключаешься на другой язык. Оно само синхронизируется.

По итогу, похоже, я просто вообще перестал читать художественную литературу. Но к методике это не имеет никакого отношения.

Хорошее решение. В какой-то момент просто оригинала и словаря уже становится достаточно для комфортного чтения.

Чем то похож на подход Ильи Франка.
Франк на сайте кстати пишет и про параллельные тексты в т.ч.
А мне вот интересно, что за переводчики пропускают слова.
Jem got his arm badly broken at the elbow.
у него была сломана рука. И всё?
zanuda mode on. /i
Хотя это как раз стимулирует читать в оригинале. Можно находить такие места и мысленно восклицать: «Ага!»
Еще сильнее удивляет, когда в переводе слов больше чем в оригинале.
Ну да, «Тень улыбки промелькнула на бледном, без кровинки, лице Боромира» (orig. Boromir smiled). С другой стороны, перевод, в котором максимально точно передаётся смысл называется подстрочник.
Нет. Подстрочник — это не «точный», а БУКВАЛЬНЫЙ перевод.
Поспешу не согласиться:)
«главная цель подстрочного перевода — максимально точно передать смысл.» (Википедия)
Ну вы можете конечно не соглашаться или ссылаться на Википедию, но это абсолютно не соответствует действительности. Подстрочник, как правило, НЕВЕРНО передает смысл. По ряду фундаментальных причин. Примеры вам приведет любой профессиональный переводчик.
Увы, но я предпочитаю больше доверять энциклопедиям, чем мнениям неких неназванных эфемерных профессиональных переводчиков. А аргументы в споре имеют гораздо больший вес, когда их называют, а не объявляют фундаментальными.
1. Да почему же «неназванных», у меня в имени пользователя никаких красных обезьян нет, зато имеется название нашей компании, которую легко загуглить и убедиться в том, что наша компания многие годы занимается профессиональным переводом (а также LNP, AI). Поэтому я знаю, что говорю и это обосновано, а не основано на Википедии.
2. Помимо собственно перевода также стоит отметить, что Википедия НЕ является достоверным источником информации, поскольку пишет туда кто попало.
3. Прежде чем писать возражения, стоит провести самостоятельное исследование по этому вопросу, которое и позволит понять разницу между подстрочником и точным переводом. Потому, что тут имеет место путаница: «точный» — это не значит перевод всех слов, которые встречаются в исходном тексте. Точный — это передача intended meaning.
4. Примеров того, как подстрочник искажает смысл полным-полно, и связано это с очень многими принципиальными причинами, например с тем, что в русском языке структура предложения и передачи мысли совсем другая, но примеры мы приведем отредактировав эту вводящую в заблуждение статью Википедии. Что, на самом деле, не так просто ибо модераторами Википедии является тоже, в общем-то, кто попало, а вовсе не специалисты в предметных областях.
OK, пример:
Source: «mail the form with any verification requested to your case worker»
Google Translate: «отправьте форму с запросом подтверждения по почте вашему социальному работнику»
Это АБСОЛЮТНО НЕВЕРНЫЙ подстрочник, вводящий в заблуждение, потому что подтверждение (разумеется) требуется от заполняющего форму, а не от «соцработника».
Правильный перевод:
«отправьте форму, приложив необходимые подтверждающие документы, по почте должностному лицу, занимающимся вашим делом»

Смысл фразы искажен полностью, включая и то, что case worker — это НЕ «социальный работник».

Хотя все слова вроде бы переведены дословно, т.е. «точно».
Еще один пример для тех, кто считает, что подстрочник — это «точный перевод»:

Оригинал: To be considered for sharing with other women, do the following
Подстрочник 1 (гуглотраслейт): Чтобы вас считали готовым поделиться с другими женщинами, сделайте следующее
Подстрочник 2 (автор творчества не известен, но это реально болталось на сайте): Чтобы вас рассматривали для совместного использования с другими женщинами, сделайте следующее:

Вариант 2 получает приз за самый смешной перевод года.

Речь идет о каршеринге. Правильный перевод не имеет ничего общего ни с одним из этих подстрочников и вообще с подстрочником.

Правильный перевод:

Чтобы вас рассматривали для поездки с другими женщинами, сделайте следующее:

Как видим, в правильном переводе имеются слова, которых нет в исходном тексте, а любой подстрочник будет неверен.
Меня даже радует, когда у книги плохой перевод, тогда параллельное чтение в оригинале доставляет большее удовольствие. (Чаще восклицаю: «Ага!»)

Помню, как читал Дюну на русском и в ней Фремены (или Фримены?) были переведены как «Вольноибы».

А мне вот интересно, что за переводчики пропускают слова.

Я тут читал одну книгу. Там пропущены целые абзацы, в некоторых местах перепутаны имена героев, перепутаны действия «шагнул назад» — «шагнул вперед». Некоторые слова переведены бессмыслено или не переведены вовсе (просто написали слово кириллицей и все), шутки потеряли смысл.

С другой стороны бывают и хорошие переводы (в чем я уже сомневался после предыдущей книги). Сейчас читаю книгу, все четко, никаикх подобных проблем нет.
Бесит, когда в технической литературе устоявшиеся термины упорно переводят на русский, путая при этом людей.
Похож, только тексты не встроены друг в друга. Это, кстати, тоже можно попробовать автоматизировать, если сделать ещё и пословное выравнивание между парами предложений.
Автор большой молодец! Плюсик и закладка!

Нет, посмотрю. Спасибо.

Классная идея. Единственное будет нормально работать именно с переводами, а не с адаптацией. Еще прикольно было-бы «на лету» менять варианты перевода, иногда от его качества разительно меняется само восприятие книги. И ещё отдельно выделять имена персонажей. Как в свое время в Гарри Поттере, когда более правильный перевод немного портила вольность в переводе имен персонажей.

С вариантами перевода интересная идея. А вытаскивать имена это вполне решаемая задача (NER), на которую тоже смотрю. Можно ведь тащить даты, имена, названия и делать на их основе какой-то дополнительный интерактивный контент.
Мне кажется, такой результат можно получить (в принципе), без создания языковой модели. Если тексты достаточно большие, то можно сопоставить определённые слова в одном тексте их переводам (словам на другом языке) в другом тексте. Потом поискать сопоставления между парами-тройками слов и будет база для синхронизации перевода. Я понимаю, что это легче сказать, чем сделать, но все же это видится вполне реализуемым.

Что касается итогового результата — формат FB2 поддерживает разметку страниц, так что в выходные форматы к html и pdf стоит добавить и нативный для читалок fb2, где пары текстов идут паралельно, например, в двухколоночных табличках по абзацу на ячейку.

За публикацию работы отдельное спасибо и плюсы )
Желаю развития проекту!
Спасибо! Про Fb2 запомнил, многие пишут.

Про статистический подход недопонял. Мы ведь в общем случае и не знаем, какому предложению соответствует какое. То есть что чему сопоставлять?
Идея в том, что одно и то же слово в исходном тексте будет часто переводиться одним и тем же словом (уже на другом языке) в переводе. Для достаточно большого текста можно найти много таких пар слов, которые располагаются по тексту приблизительно в одних и тех же позициях. Дополнительным якорем могут служить уже комбинации нескольких таких слов, которые часто встречаются в одном предложении. Ещё больше поднять точность синхронизации можно, если учесть тот факт, что предложения весьма редко меняют порядок следования в тексте, т.е. если в исходном тексте у нас слова «А» и «Б» в одной паре предложений, а в переводе — они идут в обратном порядке «B», а потом «A» — то это скорее всего не синхронные места, несмотря на близость позиций предложений в общем объёме текста.
Очень крутая статья, спасибо! Лет пять назад, когда начинал читать книги в параллельном переводе тоже задумывался о возможности автоматизации сопоставления предложений. Но я думал в сторону перевода и вычисления похожести предложений.
Спасибо! Подход с переводом двух текстов на один язык и сопоставления этого пробовал, писал ранее в другой статье. Но положительных результатов это не принесло :)

Очень интересное решение!


Было бы конечно супер иметь еще удобный интерфейс для разбора конфликотов. Возможно, Pairwise Comparison из LabelStudio можно приспособить.

О, посмотрю, спасибо.

Для редактирования корпуса уже есть UI. Планирую туда добавить и редактор конфликтов.

Для выравнивания текстов можно попробовать Google Cloud Translation API, например. Английский текст переводим в русский, этот русский переведенный текст с готовым русским переводом уже будет несложно выровнять.

Через такие прокси-тексты пробовал в самом начале. Получается хуже.

Вопрос к знатокам. А как законно выложить в открытый доступ выровненные параллельные книги, например, русскую классику и зарубежные переводы?

Законно, вероятнее всего, только те тексты, которые являются общественным достоянием. Например, такие книги, как «Этюд в багровых тонах» или "«Преступление и наказание».

А перевод тоже может стать общественным достоянием?

Да, но не всегда, могут быть детали, надо предметно смотреть.

Я пробовал твое провернуть с вышеупомянутым Bleualign. Даже удалось каким-то образом причесать треугольник. Боль начинается когда начинаешь проверять выравнивание в memoQ alignment editor.

Сейчас редактор делаю, там можно добавлять файл с подстрочным переводом для проверки.

image

А можете свой код показать для выравнивания? А то я bluealign еще не пробовал.
Сам по себе инструмент для параллельного чтения довольно интересен и, наверное, может пригодиться переводчикам. Но для изучения языка он не слишком пригоден, поскольку художественный перевод — особенно, хороший — предполагает перевод мыслей и настроения, а не слов. Плохой перевод может быть «подстрочным», но такой вряд ли вообще имеет какую-то ценность.
Отчего же? Наша нейросетка в голове достаточно мощна, чтобы натренироваться даже в такой выборке, где нет четкого соответствия.

Посмотрел, спасибо за наводку! Выглядит хорошо, напишу автору.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.