averkij Jun 27 2021 at 16:44

Lingtrain Aligner. Написал приложение для создания параллельных книг, которое вас удивит

6 min

25K

GitHub * Natural Language Processing * Learning languagesProgramming * Website development *

Technotext 2021

+74

Comments 45

BlackStar1991 Jun 27 2021 at 17:33

Интересный проект, совершенно не понятно зачем вам это надо… но выглядит интересно. У меня вопрос, если в одном из языков предложение разобьется, скажем, на два абзаца, не поломается ли весь ваш код параллельной книги? Обязательно ли соблюдении количество, эммм «паралельных тегов»? Ведь при литературных переводах что-то может добавляться или убираться из текста в зависимости от желания переводчика

averkij Jun 27 2021 at 18:49

Для меня польза в том, чтобы делать себе и друзьям такие книжки. Я люблю изучать иностранные языки и это один способов их освоения, который мне подходит.
Если в одном из языков предложение разобъется на два, то в результате выравнивания оно будет склеено в одно, так что все должно быть хорошо. Более того, можно объединить несколько выравниваний и сделать книжку на трех и более языках. Про это писал тут.
Метки сами по себе нужны только для красивой разметки. Если их количество не будет совпадать, то просто каких-то названий глав или картинок не будет и все. Сама книга выравнивается без участия этих тегов.

gisly Jun 28 2021 at 05:55

Проект очень классный! И еще одно применение — помощь в создании параллельных корпусов (например, ruscorpora.ru/new/search-para-en.html), которые в свою очередь могут использоваться для научных исследований переводов и т. п.; автор писал вроде бы в предыдущих статьях, что помогает и в этом проекте.

averkij Jun 28 2021 at 10:34

Да, с Национальным корпусом русского языка тоже сотрудничаю. Особенно с командой русско-китайского корпуса.

wtigga Jun 28 2021 at 14:51

Воу-воу, это очень круто.
Сервису надо жить в облаке :)

averkij Jun 29 2021 at 07:50

Такие планы есть, надо под это дело архитектуру подогнать.

dolfinus Jun 27 2021 at 17:46

А почему бы не использовать уже существующие языки разметки, вроде MarkDown или reStructured Text? В чем необходимость придумывать именно свой уникальный формат?

jaiprakash Jun 27 2021 at 18:32

В тех форматах нет такого: %%%%%

averkij Jun 27 2021 at 19:22

В том-то и дело, что в тех форматах есть много разного, а в этом только %%%%%.

dponyatov Jun 28 2021 at 04:16

Есть некоторая вроде бы нерешённая проблема - мультиязычная документация для программ (gfm markdown, asciidoc, doxygen).

В ту сторону нет интереса посмотреть? Что-нибудь типа плагина под obsidian может быть.

averkij Jun 28 2021 at 10:35

А в чем там проблема? Вроде бы пишешь доки на разных языках и всё :)

averkij Jun 27 2021 at 18:52

Больше форматов, красивых и разных.

Если серьезно, то для такого «птичьего языка» гораздо проще было реализовать парсинг, чем для того же MarkDown'а и тем более RST.

dolfinus Jun 27 2021 at 19:18

Никто и не заставляет самостоятельно реализовывать их парсинг - готовых либ и так целая куча. Для того же reST есть docutils, который не только преобразует текст а AST, но и позволяет определять кастомные директивы - например, чтобы ими обернуть какое-нибудь поле с именем автора, которого в самом стандарте нет.

Плюс для этих и других форматов есть куча разных конвертеров, например можно было бы проверить работу инструмента на уже существующих книгах и их переводах. А с собственным форматом придется самостоятельно же заниматься конвертацией.

averkij Jun 27 2021 at 19:37

А-а, я, кажется, начинаю понимать о чем вы :)

Вам, наверное, показалось, что эта разметка используется непосредственно при генерации книги. Поясню — все, что нужно от разметки сырого текста, — это изъять из текста все строки, оканчивающиеся на %%%%%[имя метки] и прикопать их. Все. Из того, что осталось, делается параллельный корпус.

Затем уже идет код, который создает html на основе корпуса и координат меток.

Вот тут ваша идея кажется интересной — да, можно на основе корпуса и координат меток вместо html делать MD или reST документ, который уже можно визуализировать сторонними библиотеками. Идея хорошая, спасибо.

dolfinus Jun 27 2021 at 19:58

Я скорее о том, что можно на вход передавать сразу Markdown или reST файл, чтобы не приходилось придумывать полностью новый стандарт. Из выданного парсером AST легко вытащить текст и творить с ним что угодно, а после перевода и замены автоматом получите текст ровно с тем же оформлением. Ну и да, для их рендера тоже полно готовых инструментов.

averkij Jun 27 2021 at 20:09

Я уже хотел аргументировать, что мой «стандарт» парсится одной регуляркой, но что-то есть в ваших словах.
Есть только небольшие сомнения в удобстве для пользователя, — я как-то писал документацию в reST и там не то чтобы все было очевидно. Плюс надо за отступами было следить. Надо подумать, но, опять же, спасибо за идею.

И, кстати, что делать в таком случае со стилями? При моем подходе, при рендере html я добавляю всяхих классиков в span'ы, чтобы одинаковые предложения подсвечивались, картинки были одного размера, у абзацев были отступы и разделители и т.д.

dolfinus Jun 27 2021 at 21:04

Стили на выходе рендера должны определяться настройками самого рендера, так что тут нужно смотреть на конкретную реализацию. Возможно, это легко настраивается, а может и придется костылить на уровне переопределение CSS стилей через !important. Но в вашей задаче точно не нужно пытаться вынести его в текст.

я как-то писал документацию в reST и там не то чтобы все было очевидно

Возможно он немного непривычен, да. Но ведь не обязательно использовать именно его. Тот же Markdown тоже можно использовать, для него готовых парсеров и рендеров еще больше.

Например, для Python есть библиотека markdown, которая к тому же поддерживает расширение синтаксиса через написание собственных плагинов. Даже вот встроенный плагин metadata есть, сразу с примером указания автора документа и прочих атрибутов. Правда она возвращает не AST, а сразу HTML.

парсится одной регуляркой

О нет, только не парсеры на основе регулярок. Вас ждет тысяча и одна пара граблей на этом пути, оно того не стоит.

ABy Jun 27 2021 at 18:30

У меня есть идея приложения для тренировки навыка письма на иностранном языке. Суть в том, что обучающийся переводит текст с родного языка на иностранный. Похоже на метод Ильи Франка но с обратным переводом и в письменном виде. Так вот, ваше приложение может стать неплохим источником текстов для обратного перевода!

AlexEx70 Jun 28 2021 at 04:43

Я уже сделал, под андроид, даже статью на хабре написал: habr.com/ru/post/438826
Но тут для устной тренировки, не для письменной

averkij Jun 28 2021 at 05:51

Идею поддерживаю :)
А как проверять правильность ответа? Перевести же можно по разному.

ABy Jun 28 2021 at 13:56

Если брать книги, составленные по методу Ильи Франка, то там перевод близок к дословному. И я планировал брать английский текст и менять все буквы в словах каким-то символом, например #, так что у переводящего будет информацмя о количестве слов в предложении и их длине. Так что предложение "London is the capital of Great Britain" примет вид "###### ## ### ######## ## ##### #######". Знаки препинания можно оставять без изменений. Если переводящий только смог перевести только часть слов так, что они совпали со словами под маской, их можно открывать как в "поле чудес". Можно давать подсказки при ошибочном вводе.

У меня даже прототип был на втором питоне. Надо подучить программирование для вэба и запилить вэб приложение. У меня пока довольно смутные представления как это делается. Надеюсь что яваскрипт не обязательно для этого учить:)

averkij Jun 29 2021 at 07:56

Можете посмотреть мой код, там фронтенд отдельно от бэкенда. Написан на фреймворке Vue, он популярный, а большинство визуальных элементов уже реализовано (типа используешь теги <v-card>{{контент}}</v-card>, а это уже аккуратно оформленная карточка).

averkij Jun 29 2021 at 07:56

А сама идея у вас интересная, обязательно попробуйте развить.

AlbertEinsteinEpoch21 Jun 27 2021 at 18:31

Вы молодец!
Мне кажется было бы круто все это сделать в виде системы вариантов перевода для разных текстов и статей.
Или даже отдельных страниц )

averkij Jun 28 2021 at 09:04

Ну тут надо иметь очень большой набор таких переводов, чтобы рекомендовать варианты. Либо переводить машинно.

bilayan Jun 27 2021 at 19:25

К сожалению, художественный перевод не факт что будет даже попадать по абзацам с оригиналом. Поэтому и существуют адаптированные под это книги с переводом. А есть еще и «Метод Ильи Франка», где делается подстрочник, и читаешь одно и то же сначала с ним потом без. В зависимости от уровня подготовки сначала делаешь больше акцент на одной, потом все больше и больше прпоускаешь куски с вкраплением а переходишь сразу туда где только лишь оригинал.

Но это всего лишь про контент. Проделанная работа интересная :)

averkij Jun 27 2021 at 19:49

Ну Илью Франка мы все, конечно, знаем) На выравнивание по предложениям, кстати, можно накрутить выравнивание пословное и делать такие книги самому.

Про абзацы — здесь у нас совпадение по абзацем не требуется, один из текстов можно вытянуть в единственную строку и все продолжить работать.

Хуже, если в одном из текстов не будет каких-то кусков (может быть, вы именно это имели в виду?), но такое, по моим наблюдениям, встречается довольно редко. Вот тут я выравниваю Мастера и Маргариту на восьми языках.

Old_Chroft Jun 27 2021 at 22:52

Я вот пару дней назад искал нечто подобное. Нашел интересный мне материал, исходники на LaTeX (по сути — текст, НЕ бинарный формат). Переключать окна с оригинала на перевод не удобно, программы сравнения текстов естественно не подходят. Как отнесется к этому Ваше приложение? Что потребуется «допиливать»?

averkij Jun 28 2021 at 05:45

Так как на вход надо подать текстовый файл, то надо достать текст их .tex файла. Это можно сделать при помощи pandoc.
Потом по желанию добавить разметку и вперед.

selivanov_pavel Jun 28 2021 at 03:24

Учитель: Дети, запишите предложение…
Teacher: Children, write down the sentence ...

По-моему, это всё-таки sentence.

thechemis Jun 28 2021 at 04:16

Теперь нужен AlignerHub (для примера, на основе названия проекта), где можно будет разместить в общий доступ уже готовые книги или скачать себе интересующую

averkij Jun 28 2021 at 05:47

Идея стоящая, но тут надо обдумать юридические вопросы. И на произведения и на их перевод есть авторские права.

AH89 Jun 28 2021 at 04:52

Здорово. А для планшета на базе Android такое решение есть?

averkij Jun 28 2021 at 05:55

Спасибо. Это веб-приложение, его можно развернуть на сервере прямо из докера и открывать как сайт с любого устройства. Отдельных мобильных приложений нет.

Ghedeon Jun 28 2021 at 07:21

Beelinguapp

averkij Jun 28 2021 at 16:04

Да, различных приложений много. Но не всегда там интересные тексты.

UFO landed and left these words here

averkij Jun 28 2021 at 09:03

Новых частей уже не будет.

inetstar Jun 28 2021 at 15:33

А у вас есть готовые англо-русские книги?
Выкладываете куда-нибудь?
Можете выложить?

averkij Jun 28 2021 at 16:04

Это можно в телеграм канале посмотреть, там уже немного книг есть. А если у вас есть тексты, то можно из них сделать книжку.

iron-zorin Jul 1 2021 at 18:04

А кто-нибудь встречал приложения для параллельных песен? Чтобы загрузить два разных варианта (например, оригинал и кавер) - и переключаться между ними в любом месте.

averkij Jul 2 2021 at 14:20

На amalgama-lab.com такое есть:

Там несколько режимов просмотра, и миллионы текстов уже есть. Новые, наверное, тоже можно добавлять.

iron-zorin Jul 2 2021 at 15:21

Я не про тексты, а про музыку. Загружаешь два mp3, оно анализирует, находит запевы, припевы, сильные / слабые доли и т.п. и сопоставляет.

averkij Jul 2 2021 at 15:48

Это идея для стартапа.

AigizK Aug 24 2021 at 12:03

Поэкспериментировал с выравниванием книг для башкирского языка. Причем изначально модели не содержат башкирский язык, но в гугловой модели есть татарский. А наши языки очень похожи. Получили очень хороший результат