Как стать автором
Обновить

Комментарии 67

НЛО прилетело и опубликовало эту надпись здесь
Пока не писал, но сейчас сотрудничаю с НКРЯ, делаю выравниватель для команды русско-китайского параллельного корпуса.
А чем конкретно занимается этот научный отдел?
НЛО прилетело и опубликовало эту надпись здесь
Спасибо. А на других языках такие места знаете?
НЛО прилетело и опубликовало эту надпись здесь

Да, этими пользуюсь. Ещё обычно нахожу цитату из книги на нужном языке и ищу в гугле прямое соответствие.

Для популярных текстов там же есть и переводы/оригиналы.
Прикольно, нашел «Три товарища» на белорусском и украинском.
— «Небо ще було латунно-жовте й чисте, не закурене димом.»
— «Неба, яшчэ не закопчанае дымам з фабрычнага камiна, было жоўтае, як латунь.»
— «Небо было желтым, как латунь; его еще не закоптило дымом.»

Думаю, надо делать мультиязыные книги.

Интересно как переводы вышли настолько разными. Камин в одном языке вылез внезапно.

А там в следующем предложении идёт речь про фабричные крыши: «За крышами фабрики оно светилось особенно сильно».
Когда я заинтересовался параллельным чтением, я пробовал разные программки, например, от ABBYY, макросы для разделения текста на абзацы, сам писал что-то. В итоге максимум, что я обработал, это не слишком длинный рассказ. Ручная подготовка текстов оказалась чересчур нудна.

В результате экспериментов разных остановился на том, что установил в телефон FBReader, в него интегрировал Fora Dictionary с соответствующими словарями (хоть русско-английскими, хоть английскими толковыми, хоть все вместе, да еще в любом порядке и даже с озвучкой). Словарь вызывается длинным тапом по слову. Затем я переназначил клавишу «Назад» так, чтобы при нажатии на нее появлялся пункт меню «вернуться к предыдущему тексту».

При использовании этой связки я сам определял, что мне сначала читать, английский или русский текст. Одно предложение или несколько страниц. Как часто пользоваться словарем. Никакая синхронизация машинная не нужна. Просто иногда переключаешься на другой язык. Оно само синхронизируется.

По итогу, похоже, я просто вообще перестал читать художественную литературу. Но к методике это не имеет никакого отношения.

Хорошее решение. В какой-то момент просто оригинала и словаря уже становится достаточно для комфортного чтения.

НЛО прилетело и опубликовало эту надпись здесь
Франк на сайте кстати пишет и про параллельные тексты в т.ч.
А мне вот интересно, что за переводчики пропускают слова.
Jem got his arm badly broken at the elbow.
у него была сломана рука. И всё?
zanuda mode on. /i
Хотя это как раз стимулирует читать в оригинале. Можно находить такие места и мысленно восклицать: «Ага!»
Еще сильнее удивляет, когда в переводе слов больше чем в оригинале.
Ну да, «Тень улыбки промелькнула на бледном, без кровинки, лице Боромира» (orig. Boromir smiled). С другой стороны, перевод, в котором максимально точно передаётся смысл называется подстрочник.
Нет. Подстрочник — это не «точный», а БУКВАЛЬНЫЙ перевод.
Поспешу не согласиться:)
«главная цель подстрочного перевода — максимально точно передать смысл.» (Википедия)
Ну вы можете конечно не соглашаться или ссылаться на Википедию, но это абсолютно не соответствует действительности. Подстрочник, как правило, НЕВЕРНО передает смысл. По ряду фундаментальных причин. Примеры вам приведет любой профессиональный переводчик.
Увы, но я предпочитаю больше доверять энциклопедиям, чем мнениям неких неназванных эфемерных профессиональных переводчиков. А аргументы в споре имеют гораздо больший вес, когда их называют, а не объявляют фундаментальными.
1. Да почему же «неназванных», у меня в имени пользователя никаких красных обезьян нет, зато имеется название нашей компании, которую легко загуглить и убедиться в том, что наша компания многие годы занимается профессиональным переводом (а также LNP, AI). Поэтому я знаю, что говорю и это обосновано, а не основано на Википедии.
2. Помимо собственно перевода также стоит отметить, что Википедия НЕ является достоверным источником информации, поскольку пишет туда кто попало.
3. Прежде чем писать возражения, стоит провести самостоятельное исследование по этому вопросу, которое и позволит понять разницу между подстрочником и точным переводом. Потому, что тут имеет место путаница: «точный» — это не значит перевод всех слов, которые встречаются в исходном тексте. Точный — это передача intended meaning.
4. Примеров того, как подстрочник искажает смысл полным-полно, и связано это с очень многими принципиальными причинами, например с тем, что в русском языке структура предложения и передачи мысли совсем другая, но примеры мы приведем отредактировав эту вводящую в заблуждение статью Википедии. Что, на самом деле, не так просто ибо модераторами Википедии является тоже, в общем-то, кто попало, а вовсе не специалисты в предметных областях.
OK, пример:
Source: «mail the form with any verification requested to your case worker»
Google Translate: «отправьте форму с запросом подтверждения по почте вашему социальному работнику»
Это АБСОЛЮТНО НЕВЕРНЫЙ подстрочник, вводящий в заблуждение, потому что подтверждение (разумеется) требуется от заполняющего форму, а не от «соцработника».
Правильный перевод:
«отправьте форму, приложив необходимые подтверждающие документы, по почте должностному лицу, занимающимся вашим делом»

Смысл фразы искажен полностью, включая и то, что case worker — это НЕ «социальный работник».

Хотя все слова вроде бы переведены дословно, т.е. «точно».
Еще один пример для тех, кто считает, что подстрочник — это «точный перевод»:

Оригинал: To be considered for sharing with other women, do the following
Подстрочник 1 (гуглотраслейт): Чтобы вас считали готовым поделиться с другими женщинами, сделайте следующее
Подстрочник 2 (автор творчества не известен, но это реально болталось на сайте): Чтобы вас рассматривали для совместного использования с другими женщинами, сделайте следующее:

Вариант 2 получает приз за самый смешной перевод года.

Речь идет о каршеринге. Правильный перевод не имеет ничего общего ни с одним из этих подстрочников и вообще с подстрочником.

Правильный перевод:

Чтобы вас рассматривали для поездки с другими женщинами, сделайте следующее:

Как видим, в правильном переводе имеются слова, которых нет в исходном тексте, а любой подстрочник будет неверен.

Вы же согласитесь, что показав такой перевод "Чтобы вас рассматривали для поездки с другими женщинами, сделайте следующее:" человеку, который не в курсе контекста, что речь о каршеринге - повертит вам у виска на ваш перевод? :)

Повертеть у виска надо тому, кто пытается переводить строки вне контекста. Это азы лингвистики - перевода вне контекста вообще не существует - язык многозначен. Прежде чем оставлять такие комментарии, надо ну хоть немного ознакомиться с предметом.

Честно говоря, неважно, больше там слов или меньше. Наверное, в худ. литературе главное - чтобы перевод был не хуже оригинала, а может быть даже и лучше, для читателя на его родном языке. В хорошем переводе читатель как раз чувствует стиль. А вот почувствует ли он стиль в оригинале - большой вопрос. Поди там отличи, это прилагательное от его синонима. Для этого, думается, нужно иметь очень наметанный глаз.
Но тут возникает вопрос, если в переводе ощущается определенный стиль - это стиль автора, или уже переводчика :)

Меня даже радует, когда у книги плохой перевод, тогда параллельное чтение в оригинале доставляет большее удовольствие. (Чаще восклицаю: «Ага!»)

Помню, как читал Дюну на русском и в ней Фремены (или Фримены?) были переведены как «Вольноибы».

А мне вот интересно, что за переводчики пропускают слова.

Я тут читал одну книгу. Там пропущены целые абзацы, в некоторых местах перепутаны имена героев, перепутаны действия «шагнул назад» — «шагнул вперед». Некоторые слова переведены бессмыслено или не переведены вовсе (просто написали слово кириллицей и все), шутки потеряли смысл.

С другой стороны бывают и хорошие переводы (в чем я уже сомневался после предыдущей книги). Сейчас читаю книгу, все четко, никаикх подобных проблем нет.
Бесит, когда в технической литературе устоявшиеся термины упорно переводят на русский, путая при этом людей.

Этому спору много лет!
"Критика «буквалистских» переводов началась в середине 1930-х годов. На первом съезде Союза писателей высокую оценку получили переводы грузинских поэтов, выполненные Борисом Пастернаком и Николаем Тихоновым. Оба они не знали грузинского языка и переводили по подстрочникам, не особо заботясь о верности оригиналу. Чуть позже уже знакомый нам Иван Кашкин раскритиковал переводы Диккенса, над которыми работали бывший гахновец Густав Шпет и его единомышленники, за «снобизм точности». В 1940–1950-е годы слово «буквализм» применительно к переводческой работе окончательно стало ругательством, аналогичным «формализму» и «натурализму» в литературоведении."

Похож, только тексты не встроены друг в друга. Это, кстати, тоже можно попробовать автоматизировать, если сделать ещё и пословное выравнивание между парами предложений.
НЛО прилетело и опубликовало эту надпись здесь
Автор большой молодец! Плюсик и закладка!

Нет, посмотрю. Спасибо.

Классная идея. Единственное будет нормально работать именно с переводами, а не с адаптацией. Еще прикольно было-бы «на лету» менять варианты перевода, иногда от его качества разительно меняется само восприятие книги. И ещё отдельно выделять имена персонажей. Как в свое время в Гарри Поттере, когда более правильный перевод немного портила вольность в переводе имен персонажей.

С вариантами перевода интересная идея. А вытаскивать имена это вполне решаемая задача (NER), на которую тоже смотрю. Можно ведь тащить даты, имена, названия и делать на их основе какой-то дополнительный интерактивный контент.
Мне кажется, такой результат можно получить (в принципе), без создания языковой модели. Если тексты достаточно большие, то можно сопоставить определённые слова в одном тексте их переводам (словам на другом языке) в другом тексте. Потом поискать сопоставления между парами-тройками слов и будет база для синхронизации перевода. Я понимаю, что это легче сказать, чем сделать, но все же это видится вполне реализуемым.

Что касается итогового результата — формат FB2 поддерживает разметку страниц, так что в выходные форматы к html и pdf стоит добавить и нативный для читалок fb2, где пары текстов идут паралельно, например, в двухколоночных табличках по абзацу на ячейку.

За публикацию работы отдельное спасибо и плюсы )
Желаю развития проекту!
Спасибо! Про Fb2 запомнил, многие пишут.

Про статистический подход недопонял. Мы ведь в общем случае и не знаем, какому предложению соответствует какое. То есть что чему сопоставлять?
Идея в том, что одно и то же слово в исходном тексте будет часто переводиться одним и тем же словом (уже на другом языке) в переводе. Для достаточно большого текста можно найти много таких пар слов, которые располагаются по тексту приблизительно в одних и тех же позициях. Дополнительным якорем могут служить уже комбинации нескольких таких слов, которые часто встречаются в одном предложении. Ещё больше поднять точность синхронизации можно, если учесть тот факт, что предложения весьма редко меняют порядок следования в тексте, т.е. если в исходном тексте у нас слова «А» и «Б» в одной паре предложений, а в переводе — они идут в обратном порядке «B», а потом «A» — то это скорее всего не синхронные места, несмотря на близость позиций предложений в общем объёме текста.
Очень крутая статья, спасибо! Лет пять назад, когда начинал читать книги в параллельном переводе тоже задумывался о возможности автоматизации сопоставления предложений. Но я думал в сторону перевода и вычисления похожести предложений.
Спасибо! Подход с переводом двух текстов на один язык и сопоставления этого пробовал, писал ранее в другой статье. Но положительных результатов это не принесло :)

Очень интересное решение!


Было бы конечно супер иметь еще удобный интерфейс для разбора конфликотов. Возможно, Pairwise Comparison из LabelStudio можно приспособить.

О, посмотрю, спасибо.

Для редактирования корпуса уже есть UI. Планирую туда добавить и редактор конфликтов.

Для выравнивания текстов можно попробовать Google Cloud Translation API, например. Английский текст переводим в русский, этот русский переведенный текст с готовым русским переводом уже будет несложно выровнять.

Через такие прокси-тексты пробовал в самом начале. Получается хуже.

Вопрос к знатокам. А как законно выложить в открытый доступ выровненные параллельные книги, например, русскую классику и зарубежные переводы?

Законно, вероятнее всего, только те тексты, которые являются общественным достоянием. Например, такие книги, как «Этюд в багровых тонах» или "«Преступление и наказание».

А перевод тоже может стать общественным достоянием?

Да, но не всегда, могут быть детали, надо предметно смотреть.

Думается, если со смерти переводчика прошло 70 лет (для РФ), то можно смело выкладывать.

Как мне объяснили люди, все не так просто. С авторским правом есть куча нюансов…

Ну оно, авторское право, конечно разное в каждой стране.
Например в Австралии до сих пор в Public Domain попадает все, написанное авторами, через 50 лет после их смерти (как было во всем мире до 1980-х годов). А в США вроде бы отсчет идет от момента первой публикации. А в РФ - 70 лет с момента смерти автора.
Проблема в том, что на данный момент это означает умерших в 1951 году - что, надо понимать, не такой уж большой корпус переводов. Даже переводы Марка Твена Чуковского не попадут в Public Domain еще почти 20 лет, так как умер он в 1969 году :(

Но в общем случае, думаю можно смело брать оригинальный текст с Wikisource, и него перевод, если он там есть. Уж там модераторы тщательно проверяют, является ли текст Public Domain или нет.
Уж если там есть Приключения Том Сойера https://en.wikisource.org/wiki/The_Adventures_of_Tom_Sawyer , то сомнений в его общественном достоянии в оригинале нет.

Я пробовал твое провернуть с вышеупомянутым Bleualign. Даже удалось каким-то образом причесать треугольник. Боль начинается когда начинаешь проверять выравнивание в memoQ alignment editor.

Сейчас редактор делаю, там можно добавлять файл с подстрочным переводом для проверки.

image

А можете свой код показать для выравнивания? А то я bluealign еще не пробовал.
Сам по себе инструмент для параллельного чтения довольно интересен и, наверное, может пригодиться переводчикам. Но для изучения языка он не слишком пригоден, поскольку художественный перевод — особенно, хороший — предполагает перевод мыслей и настроения, а не слов. Плохой перевод может быть «подстрочным», но такой вряд ли вообще имеет какую-то ценность.
Отчего же? Наша нейросетка в голове достаточно мощна, чтобы натренироваться даже в такой выборке, где нет четкого соответствия.

Посмотрел, спасибо за наводку! Выглядит хорошо, напишу автору.

Приложения 2Books и "Параллельные тексты" тоже выглядят интересно. И у всех троих разный интерфейс.

Классное начинание!
Развивается ли ваш проект?
Не думали, что можно было бы сделать что-то типа Reverso Context https://context.reverso.net/translation/ но на базе корпусов художественных книг?

Конечно, такая идея будет подхвачена, только если будет где делится полученными результатами. В принципе, корпус текстов в Public Domain весьма большой. PD Текстов полно даже в Викитеке

И да, на Litres есть целый раздел с такими параллельными книгами - https://www.litres.ru/serii-knig/metod-obuchauschego-chteniya-ili-franka/ - неплохой бизнес, видимо.

Привет!

Да, проект потихоньку развивается, — есть UI; сейчас делаю сегментирование, чтобы отдельные части (главы или куски, которые пользователь сам пометит) выравнивались независимо друг от друга; ещё можно дообучать модели под малоресурсные языки, если есть соответствующий корпус.

Корпуса делать тоже можно, собственно, с этого все и начиналось. Сейчас коллеги используют библиотеку для извлечения корпусов на башкирском и чувашском.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории