— «Небо ще було латунно-жовте й чисте, не закурене димом.»
— «Неба, яшчэ не закопчанае дымам з фабрычнага камiна, было жоўтае, як латунь.»
— «Небо было желтым, как латунь; его еще не закоптило дымом.»

Думаю, надо делать мультиязыные книги.

Denai 18 мая 2021 в 23:37

Интересно как переводы вышли настолько разными. Камин в одном языке вылез внезапно.

averkij 19 мая 2021 в 06:15

А там в следующем предложении идёт речь про фабричные крыши: «За крышами фабрики оно светилось особенно сильно».

Fodin 16 мая 2021 в 19:39

Когда я заинтересовался параллельным чтением, я пробовал разные программки, например, от ABBYY, макросы для разделения текста на абзацы, сам писал что-то. В итоге максимум, что я обработал, это не слишком длинный рассказ. Ручная подготовка текстов оказалась чересчур нудна.

В результате экспериментов разных остановился на том, что установил в телефон FBReader, в него интегрировал Fora Dictionary с соответствующими словарями (хоть русско-английскими, хоть английскими толковыми, хоть все вместе, да еще в любом порядке и даже с озвучкой). Словарь вызывается длинным тапом по слову. Затем я переназначил клавишу «Назад» так, чтобы при нажатии на нее появлялся пункт меню «вернуться к предыдущему тексту».

При использовании этой связки я сам определял, что мне сначала читать, английский или русский текст. Одно предложение или несколько страниц. Как часто пользоваться словарем. Никакая синхронизация машинная не нужна. Просто иногда переключаешься на другой язык. Оно само синхронизируется.

По итогу, похоже, я просто вообще перестал читать художественную литературу. Но к методике это не имеет никакого отношения.

averkij 17 мая 2021 в 09:53

Хорошее решение. В какой-то момент просто оригинала и словаря уже становится достаточно для комфортного чтения.

НЛО прилетело и опубликовало эту надпись здесь

Daddy_Cool 16 мая 2021 в 23:36

Франк на сайте кстати пишет и про параллельные тексты в т.ч.
А мне вот интересно, что за переводчики пропускают слова.
Jem got his arm badly broken at the elbow.
у него была сломана рука. И всё?
zanuda mode on. /i
Хотя это как раз стимулирует читать в оригинале. Можно находить такие места и мысленно восклицать: «Ага!»

averkij 17 мая 2021 в 04:10

Еще сильнее удивляет, когда в переводе слов больше чем в оригинале.

RedApe 17 мая 2021 в 05:47

Ну да, «Тень улыбки промелькнула на бледном, без кровинки, лице Боромира» (orig. Boromir smiled). С другой стороны, перевод, в котором максимально точно передаётся смысл называется подстрочник.

LogrusGlobal 17 мая 2021 в 12:14

Нет. Подстрочник — это не «точный», а БУКВАЛЬНЫЙ перевод.

RedApe 17 мая 2021 в 14:04

Поспешу не согласиться:)
«главная цель подстрочного перевода — максимально точно передать смысл.» (Википедия)

LogrusGlobal 17 мая 2021 в 15:03

Ну вы можете конечно не соглашаться или ссылаться на Википедию, но это абсолютно не соответствует действительности. Подстрочник, как правило, НЕВЕРНО передает смысл. По ряду фундаментальных причин. Примеры вам приведет любой профессиональный переводчик.

RedApe 17 мая 2021 в 15:17

Увы, но я предпочитаю больше доверять энциклопедиям, чем мнениям неких неназванных эфемерных профессиональных переводчиков. А аргументы в споре имеют гораздо больший вес, когда их называют, а не объявляют фундаментальными.

LogrusGlobal 17 мая 2021 в 19:02

1. Да почему же «неназванных», у меня в имени пользователя никаких красных обезьян нет, зато имеется название нашей компании, которую легко загуглить и убедиться в том, что наша компания многие годы занимается профессиональным переводом (а также LNP, AI). Поэтому я знаю, что говорю и это обосновано, а не основано на Википедии.
2. Помимо собственно перевода также стоит отметить, что Википедия НЕ является достоверным источником информации, поскольку пишет туда кто попало.
3. Прежде чем писать возражения, стоит провести самостоятельное исследование по этому вопросу, которое и позволит понять разницу между подстрочником и точным переводом. Потому, что тут имеет место путаница: «точный» — это не значит перевод всех слов, которые встречаются в исходном тексте. Точный — это передача intended meaning.
4. Примеров того, как подстрочник искажает смысл полным-полно, и связано это с очень многими принципиальными причинами, например с тем, что в русском языке структура предложения и передачи мысли совсем другая, но примеры мы приведем отредактировав эту вводящую в заблуждение статью Википедии. Что, на самом деле, не так просто ибо модераторами Википедии является тоже, в общем-то, кто попало, а вовсе не специалисты в предметных областях.

LogrusGlobal 18 мая 2021 в 01:47

OK, пример:
Source: «mail the form with any verification requested to your case worker»
Google Translate: «отправьте форму с запросом подтверждения по почте вашему социальному работнику»
Это АБСОЛЮТНО НЕВЕРНЫЙ подстрочник, вводящий в заблуждение, потому что подтверждение (разумеется) требуется от заполняющего форму, а не от «соцработника».
Правильный перевод:
«отправьте форму, приложив необходимые подтверждающие документы, по почте должностному лицу, занимающимся вашим делом»

Смысл фразы искажен полностью, включая и то, что case worker — это НЕ «социальный работник».

Хотя все слова вроде бы переведены дословно, т.е. «точно».

LogrusGlobal 19 мая 2021 в 05:21

Еще один пример для тех, кто считает, что подстрочник — это «точный перевод»:

Оригинал: To be considered for sharing with other women, do the following
Подстрочник 1 (гуглотраслейт): Чтобы вас считали готовым поделиться с другими женщинами, сделайте следующее
Подстрочник 2 (автор творчества не известен, но это реально болталось на сайте): Чтобы вас рассматривали для совместного использования с другими женщинами, сделайте следующее:

Вариант 2 получает приз за самый смешной перевод года.

Речь идет о каршеринге. Правильный перевод не имеет ничего общего ни с одним из этих подстрочников и вообще с подстрочником.

Правильный перевод:

Чтобы вас рассматривали для поездки с другими женщинами, сделайте следующее:

Как видим, в правильном переводе имеются слова, которых нет в исходном тексте, а любой подстрочник будет неверен.

v_m_smith 3 дек 2021 в 17:15

Вы же согласитесь, что показав такой перевод "Чтобы вас рассматривали для поездки с другими женщинами, сделайте следующее:" человеку, который не в курсе контекста, что речь о каршеринге - повертит вам у виска на ваш перевод? :)

LogrusGlobal 4 дек 2021 в 07:26

Повертеть у виска надо тому, кто пытается переводить строки вне контекста. Это азы лингвистики - перевода вне контекста вообще не существует - язык многозначен. Прежде чем оставлять такие комментарии, надо ну хоть немного ознакомиться с предметом.

v_m_smith 3 дек 2021 в 17:22

Честно говоря, неважно, больше там слов или меньше. Наверное, в худ. литературе главное - чтобы перевод был не хуже оригинала, а может быть даже и лучше, для читателя на его родном языке. В хорошем переводе читатель как раз чувствует стиль. А вот почувствует ли он стиль в оригинале - большой вопрос. Поди там отличи, это прилагательное от его синонима. Для этого, думается, нужно иметь очень наметанный глаз.
Но тут возникает вопрос, если в переводе ощущается определенный стиль - это стиль автора, или уже переводчика :)

Viperous 17 мая 2021 в 06:35

Меня даже радует, когда у книги плохой перевод, тогда параллельное чтение в оригинале доставляет большее удовольствие. (Чаще восклицаю: «Ага!»)

averkij 17 мая 2021 в 09:56

Помню, как читал Дюну на русском и в ней Фремены (или Фримены?) были переведены как «Вольноибы».

un1t 17 мая 2021 в 10:26

А мне вот интересно, что за переводчики пропускают слова.

Я тут читал одну книгу. Там пропущены целые абзацы, в некоторых местах перепутаны имена героев, перепутаны действия «шагнул назад» — «шагнул вперед». Некоторые слова переведены бессмыслено или не переведены вовсе (просто написали слово кириллицей и все), шутки потеряли смысл.

С другой стороны бывают и хорошие переводы (в чем я уже сомневался после предыдущей книги). Сейчас читаю книгу, все четко, никаикх подобных проблем нет.

averkij 18 мая 2021 в 06:20

Бесит, когда в технической литературе устоявшиеся термины упорно переводят на русский, путая при этом людей.

v_m_smith 5 дек 2021 в 15:09

Этому спору много лет!
"Критика «буквалистских» переводов началась в середине 1930-х годов. На первом съезде Союза писателей высокую оценку получили переводы грузинских поэтов, выполненные Борисом Пастернаком и Николаем Тихоновым. Оба они не знали грузинского языка и переводили по подстрочникам, не особо заботясь о верности оригиналу. Чуть позже уже знакомый нам Иван Кашкин раскритиковал переводы Диккенса, над которыми работали бывший гахновец Густав Шпет и его единомышленники, за «снобизм точности». В 1940–1950-е годы слово «буквализм» применительно к переводческой работе окончательно стало ругательством, аналогичным «формализму» и «натурализму» в литературоведении."

averkij 18 мая 2021 в 06:18

Похож, только тексты не встроены друг в друга. Это, кстати, тоже можно попробовать автоматизировать, если сделать ещё и пословное выравнивание между парами предложений.

НЛО прилетело и опубликовало эту надпись здесь

OBIEESupport 16 мая 2021 в 23:10

Автор большой молодец! Плюсик и закладка!

microspace 17 мая 2021 в 05:07

С BLEUAlign не сравнивали?

averkij 17 мая 2021 в 09:56

Нет, посмотрю. Спасибо.

v1000 17 мая 2021 в 06:21

Классная идея. Единственное будет нормально работать именно с переводами, а не с адаптацией. Еще прикольно было-бы «на лету» менять варианты перевода, иногда от его качества разительно меняется само восприятие книги. И ещё отдельно выделять имена персонажей. Как в свое время в Гарри Поттере, когда более правильный перевод немного портила вольность в переводе имен персонажей.

averkij 17 мая 2021 в 12:17

С вариантами перевода интересная идея. А вытаскивать имена это вполне решаемая задача (NER), на которую тоже смотрю. Можно ведь тащить даты, имена, названия и делать на их основе какой-то дополнительный интерактивный контент.

zuborg 17 мая 2021 в 06:42

Мне кажется, такой результат можно получить (в принципе), без создания языковой модели. Если тексты достаточно большие, то можно сопоставить определённые слова в одном тексте их переводам (словам на другом языке) в другом тексте. Потом поискать сопоставления между парами-тройками слов и будет база для синхронизации перевода. Я понимаю, что это легче сказать, чем сделать, но все же это видится вполне реализуемым.

Что касается итогового результата — формат FB2 поддерживает разметку страниц, так что в выходные форматы к html и pdf стоит добавить и нативный для читалок fb2, где пары текстов идут паралельно, например, в двухколоночных табличках по абзацу на ячейку.

За публикацию работы отдельное спасибо и плюсы )
Желаю развития проекту!

averkij 17 мая 2021 в 12:20

Спасибо! Про Fb2 запомнил, многие пишут.

Про статистический подход недопонял. Мы ведь в общем случае и не знаем, какому предложению соответствует какое. То есть что чему сопоставлять?

zuborg 17 мая 2021 в 15:24

Идея в том, что одно и то же слово в исходном тексте будет часто переводиться одним и тем же словом (уже на другом языке) в переводе. Для достаточно большого текста можно найти много таких пар слов, которые располагаются по тексту приблизительно в одних и тех же позициях. Дополнительным якорем могут служить уже комбинации нескольких таких слов, которые часто встречаются в одном предложении. Ещё больше поднять точность синхронизации можно, если учесть тот факт, что предложения весьма редко меняют порядок следования в тексте, т.е. если в исходном тексте у нас слова «А» и «Б» в одной паре предложений, а в переводе — они идут в обратном порядке «B», а потом «A» — то это скорее всего не синхронные места, несмотря на близость позиций предложений в общем объёме текста.

Viperous 17 мая 2021 в 06:47

Очень крутая статья, спасибо! Лет пять назад, когда начинал читать книги в параллельном переводе тоже задумывался о возможности автоматизации сопоставления предложений. Но я думал в сторону перевода и вычисления похожести предложений.

averkij 17 мая 2021 в 12:22

Спасибо! Подход с переводом двух текстов на один язык и сопоставления этого пробовал, писал ранее в другой статье. Но положительных результатов это не принесло :)

nikolay_karelin 17 мая 2021 в 08:45

Очень интересное решение!

Было бы конечно супер иметь еще удобный интерфейс для разбора конфликотов. Возможно, Pairwise Comparison из LabelStudio можно приспособить.

averkij 17 мая 2021 в 12:23

О, посмотрю, спасибо.

Для редактирования корпуса уже есть UI. Планирую туда добавить и редактор конфликтов.

nomhoi 17 мая 2021 в 15:59

Для выравнивания текстов можно попробовать Google Cloud Translation API, например. Английский текст переводим в русский, этот русский переведенный текст с готовым русским переводом уже будет несложно выровнять.

averkij 17 мая 2021 в 16:27

Через такие прокси-тексты пробовал в самом начале. Получается хуже.

averkij 17 мая 2021 в 16:26

Вопрос к знатокам. А как законно выложить в открытый доступ выровненные параллельные книги, например, русскую классику и зарубежные переводы?

AlexEx70 18 мая 2021 в 07:23

Законно, вероятнее всего, только те тексты, которые являются общественным достоянием. Например, такие книги, как «Этюд в багровых тонах» или "«Преступление и наказание».

averkij 18 мая 2021 в 08:01

А перевод тоже может стать общественным достоянием?

AlexEx70 19 мая 2021 в 03:00

Да, но не всегда, могут быть детали, надо предметно смотреть.

v_m_smith 3 дек 2021 в 17:31

Думается, если со смерти переводчика прошло 70 лет (для РФ), то можно смело выкладывать.

averkij 4 дек 2021 в 13:05

Как мне объяснили люди, все не так просто. С авторским правом есть куча нюансов…

v_m_smith 4 дек 2021 в 13:43

Ну оно, авторское право, конечно разное в каждой стране.
Например в Австралии до сих пор в Public Domain попадает все, написанное авторами, через 50 лет после их смерти (как было во всем мире до 1980-х годов). А в США вроде бы отсчет идет от момента первой публикации. А в РФ - 70 лет с момента смерти автора.
Проблема в том, что на данный момент это означает умерших в 1951 году - что, надо понимать, не такой уж большой корпус переводов. Даже переводы Марка Твена Чуковского не попадут в Public Domain еще почти 20 лет, так как умер он в 1969 году :(

v_m_smith 4 дек 2021 в 14:02

Но в общем случае, думаю можно смело брать оригинальный текст с Wikisource, и него перевод, если он там есть. Уж там модераторы тщательно проверяют, является ли текст Public Domain или нет.
Уж если там есть Приключения Том Сойера https://en.wikisource.org/wiki/The_Adventures_of_Tom_Sawyer , то сомнений в его общественном достоянии в оригинале нет.

microspace 19 мая 2021 в 01:25

Я пробовал твое провернуть с вышеупомянутым Bleualign. Даже удалось каким-то образом причесать треугольник. Боль начинается когда начинаешь проверять выравнивание в memoQ alignment editor.

averkij 19 мая 2021 в 06:21

Сейчас редактор делаю, там можно добавлять файл с подстрочным переводом для проверки.

А можете свой код показать для выравнивания? А то я bluealign еще не пробовал.

S0mbre 19 мая 2021 в 04:49

Сам по себе инструмент для параллельного чтения довольно интересен и, наверное, может пригодиться переводчикам. Но для изучения языка он не слишком пригоден, поскольку художественный перевод — особенно, хороший — предполагает перевод мыслей и настроения, а не слов. Плохой перевод может быть «подстрочным», но такой вряд ли вообще имеет какую-то ценность.

AlexEx70 19 мая 2021 в 08:52

Отчего же? Наша нейросетка в голове достаточно мощна, чтобы натренироваться даже в такой выборке, где нет четкого соответствия.

KursikS 11 июн 2021 в 19:22

Я в Smart Book читаю параллельные книги
smart-book.net

averkij 6 июл 2021 в 10:46

Посмотрел, спасибо за наводку! Выглядит хорошо, напишу автору.

v_m_smith 3 дек 2021 в 19:05

Приложения 2Books и "Параллельные тексты" тоже выглядят интересно. И у всех троих разный интерфейс.

v_m_smith 3 дек 2021 в 17:53

Классное начинание!
Развивается ли ваш проект?
Не думали, что можно было бы сделать что-то типа Reverso Context https://context.reverso.net/translation/ но на базе корпусов художественных книг?

Конечно, такая идея будет подхвачена, только если будет где делится полученными результатами. В принципе, корпус текстов в Public Domain весьма большой. PD Текстов полно даже в Викитеке

И да, на Litres есть целый раздел с такими параллельными книгами - https://www.litres.ru/serii-knig/metod-obuchauschego-chteniya-ili-franka/ - неплохой бизнес, видимо.

averkij 4 дек 2021 в 13:02

Привет!

Да, проект потихоньку развивается, — есть UI; сейчас делаю сегментирование, чтобы отдельные части (главы или куски, которые пользователь сам пометит) выравнивались независимо друг от друга; ещё можно дообучать модели под малоресурсные языки, если есть соответствующий корпус.

Корпуса делать тоже можно, собственно, с этого все и начиналось. Сейчас коллеги используют библиотеку для извлечения корпусов на башкирском и чувашском.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий