averkij Jun 2 2021 at 16:05

Сам себе Гутенберг. Делаем многоязычные параллельные книги

14 min

9.5K

Natural Language Processing * Python * Learning languagesMachine learning * Typography *

Tutorial

+24

Comments 14

NeoCode Jun 2 2021 at 21:44

Интересно, а какой нибудь классической оффлайн софтины для этого нет? Т.е. загружаешь две pdf-ки (txt, fb2, ...) в две части окна, и далее мышью сопоставляешь абзацы (с возможностью разбить абзац на два, склеить из двух один, пропустить кусок и т.п.)

averkij Jun 3 2021 at 06:03

Это будет довольно долгий процесс. 3000 тысячи абзацев с одной стороны, 3500 с другой (на языке, который вы только изучаете). Мышь в руку и вперёд :)

Emelian Jun 3 2021 at 04:16

Я лично сторонник работы с интерактивным звуком, плюс использование метода «запоминание руками». Сейчас работаю над новой версией программы, старый прототип которой можно посмотреть на scholium.webservis.ru. Также интересно создание обучающих видео роликов с двуязычными субтитрами, повторами и паузами. Примеры моих экспериментов можно глянуть на my.mail.ru/mail/emmerald/video/_myvideo. Как то это кажется более современным подходом.

SinsI Jun 3 2021 at 04:23

Интересно было бы провернуть что-нибудь подобное с аудиокнигами, или с аудиокнигами и их текстами/переводами текстов — открываешь страницу с русским текстом, а тебе её же проигрывают с английской аудиокнигой, при этом выдавая караоке-подсвечивание текущего предложения.

averkij Jun 3 2021 at 06:05

Может путаю, но видел такое в Audible от амазона. Там, если купить одновременно книгу и аудиокнигу, то можно слушать и видеть текст, который читается.

niccolo2019 Jun 3 2021 at 05:33

А почему не используете обычные программы сопоставители типа Abbyy Aligner, LF Aligner etc?
Заходите сюда forum.ru-board.com/topic.cgi?forum=93&topic=4071&start=80#lt

averkij Jun 3 2021 at 05:53

ABBYY Aligner пробовал, он не умеет автоматически сопостовлять одной строке набор строк и наоборот. Если выравнивать книгу на десяток тысяч строк, то это слишком много ручной работы. Потом я не знаю, сможет ли он запомнить, где были концы абзацев, чтобы из полученного корпуса сделать книжку. Да он и платный к тому же. Еще несколько библиотек и софтин пробовал, но они были такие же глупые.

Тут смысл в том, чтобы из двух текстов сделать готовую книгу с минимальными усилиями. Если использовали что-то более продвинутое, буду рад услышать. На форум зашёл.

niccolo2019 Jun 3 2021 at 06:53

Abbyy Aligner сопоставляет по предложениям с приоритетом словарного алгоритма, т.е. иногда предложения и с той и с другой стороны принудительно объединяются, пока не будет достигнут некий приемлемый уровень совпадения.
Ручная работа остаётся ВСЕГДА. Проблема сделать её быстрой и удобной, чем Abbyy Aligner не отличается.
Поскольку он больше не поддерживается и не развивается — компания часто раздаёт его по всяким акциям.

Если смысл быстро — зачем уходить на уровень предложений — абзацного уровня будет вполне достаточно.
Это тем более актуально, что в инженерно-научных книгах времён СССР часто опускали абзацы, специфичные только для США/Великобритании, по иному давали ссылки на литературу и т.п. (что тоже часто ставит в тупик программы автоматического сопоставления).

averkij Jun 3 2021 at 08:21

Смысл не только в том, чтобы быстро. Изначально, то что я делаю, — это редактор параллельного корпуса для НКРЯ (большой корпус русского языка). Отсюда необходимость соответствия на уровне предложений и выгрузка корпуса в разных форматах.

Для разбития на предложения сырого текста есть хорошие библиотеки (например, razdel), которые учитывают нюансы синтаксиса. А разбить текст на абзацы автоматически не всегда можно, это все-таки логическое «авторское» деление. Поэтому надо текст предобработать (в статье это четвертое правило разметки), и лучше это делать только с одним текстом, чем с всеми. Для книги, которую выравнивали в статье, например, удачно был найден оригинал текста, там кажый абзац был на одной строке. А у всех остальных было как попало. Нужно было бы просматривать и править ещё семь текстов по ~10000 строк.

К тому же, я увлекаюсь изучением иностранных языков, и подсветка предложений в двух параллельных текстах мне очень помогает. Мне кажется это полезным дополнением как минимум на начальном этапе изучения.

По поводу того, что всегда остается ручная работа, я согласен. Для меня всё же лучше, когда её остается минимум. С выравнивателем от ABBYY и тех, что я пробовал, надо было затрачивать существенно больше времени (по крайней мере мне).

niccolo2019 Jun 3 2021 at 08:42

1. А чем Вас не устраивают существующие ТМХ редакторы — например, давно выложенный в свободный доступ с исходниками Heartsome TMX editor? Может быть проще сделать фильтр ТМХ/Xliff для MSO/LO?
2. Я не программист, но как практик — разбить голый текст на предложения можно и набором регвыров, который нейтивы могут подогнать под особенности своего языка.
3. Удачный оригинал для экспериментов — это примерно как козырный туз или джокер из рукава… С такими документами почти все сопоставители работают ОЧЕНЬ ХОРОШО (на основных европейских языках обычно проблемы с пропусками и прямой речью). Обычно же приходится работать со сканами разной степени паршивости.
4. Пользы от того, что легко даётся — много не бывает. И если раньше, необразованные революционеры выучивали за полгода немецкий для чтения Маркса в подлиннике, то сейчас, со всеми примочками и МП, выпускники ИИЯ такую дичь пишут, что даже не знаешь, что сказать.
5. Никто не спорит о полезности, когда остаётся минимум. Вопрос только — а как понять? Огромным минусом Абби, да и у вас не вижу, является отсутствие метрики верности сопоставления для каждого сегмента — по словарю, ТМХ, ну или всяким Левенштейнам и иже с ними… Тогда, отфильтровав предложения по порогу неверного сопоставления, можно существенно сократить работу, хотя бы на время переходов от одного плохого сегмента к другому.
6. Библиотека — это хорошо. Но простым пользователям лучше GUI или, на худой конец, батник, который бы из двух исходников в PDF/TXT/DOC(X)-ODT делал ТМХ/TSV.

averkij Jun 3 2021 at 09:18

1. Другие редакторы устраивают, но надо в них что-то подать. Код из моего редактора, я вынес в отдельную библиотеку и про нее написал в этой статье. Она как раз умеет выгружать в TMX в том числе.
Плюс своего редактора в том, что я добавляю в него функционал, который требуется команде и который использует дополнительные данные, полученные из библиотеки. Плюс модели можно менять, дообучать. Плюс эти модели мультиязыковые, 100+ языков в самой большой. Про фильтр на ТМХ/Xliff, MSO/LO я не до конца понял.
2. Можно, конечно, но в вышеупомянутой библиотеке razdel это уже сделано, плюс там еще куча правил, словари и прочие хитрости. Для китайского я тоже у себя наделал каких-то регулярок, без этого никак.
3. Ну тут посыл был в том, что если ни одного такого джокера не нашлось, то лучше обработать руками один, чем все. Это если говорить про разбиение на абзацы. Со сканами я не работал. В моем кейсе у нас есть два качественных текста, которые мы нашли/купили и хотим сделать из них параллельную книгу.
4. Тут не знаю, что сказать, философствовать надо :) Мне лично изучение доставляет удовольствие и этого достаточно. Хобби все-таки.
5. На самом деле есть, модель на входе получает два предложения и на выходе дает какую-то чиселку. В редакторе это можно задействовать и фильтровать по этой чиселке, если нет задачи сохранить весь текст.
В случае книжки же хотелось максимально хорошо выправить тексты, ничего не потеряв.
6. GUI делаю, в конце статьи про это писал.

averkij Jun 3 2021 at 06:09

Кстати, выгружать моей библотекой в TMX формат тоже можно.

d1gital_love Nov 8 2021 at 07:01

Есть ли идеи как упростить поиск по конкретному языку для читателей?

averkij Nov 8 2021 at 07:06

А что имеется в виду? Языки же разные и то, что ищется, найдется только для одного.