Comments 25
Сергей, это действительно грандиозно. Ждем добавления санскрита!
Отличный проект! А есть ли возможность автоматизировать создание epub/mobi книг для чтения "по методу Ильи Франка"? Это когда читаешь на иностранном языке, но рядом с каждым предложением стоит перевод на русский, курсивом. Очень похоже на то что вы публикуете в своём телеграм-канале, но у вас перевод целыми абзацами и в PDF.
так, вот она позволяет средствами системы условно «разархивировать» и файл PDF в текущюю директорию (в формате HTML, Layout, Raw text, картинки)
а, далее можно открыть HTML файл в i-net браузере со встроенным функционалом перевода текста (например SlimJet) и после перевода сохранить или в HTML или PDF (и также его «разархивировав» по UExtract)
после этих действий получаются два файла (исходный и переведённый) исходного содержания, но имеющих шероховатости, как переведённые «слова», которые стоило не переводить, а оставить в англо-транскрипции исходя из контекта содержания текста.
так вот вопрос: в какой степени возможно отработать и такие Тексты или HTML файлы по представленной Вами методике, чтобы оставить не требующие перевода англо-язычные слова в результирующем файле после их синхронизации (например на основе отдельного словаря слов)
P.S. При разархивации PDF файлов в формате HTML каждая строка оформлена строкой, а не в общий абзац, что может не позволить нормально работать с таким файлом при его редактировании/правке в дальнейших инструментах.
но в плане работы с PDF она, вроде, использует утилиты пакета Poppler.
P.S. Саму Puppy Linux (начиная от Tahr, Xenial, Bionic… Jammy) запускаю в формe LiveCD через Grub2Dos с внешнего SSD. При этом, браузер, к примеру FireFox использую последней версии (обновляя его), сейчас 108, но, бывает, он на каких то сайтах и в таком варианте безбожно зависает не реагируя на мышинные действия и приходится или отключать сетевой кабель или перезагружать систему, (х.з., что такое с ним пытаются проделать скрипты таких сайтов), но это нестрашно так как система загружается каждый раз с SSD в варианте LiveCD и всякой малваре, думаю, такой «прикуп» не по нутру.
В рамках такого варианта, бывает, и собираю какое то ПО штатным Devx GCC пакетом и даже достаточно тяжёлое собиралось.
Как, понимаю, сейчас интересно в «тестировнии» проекта использовать оригинальные англоязычные тексты и их перевод в сети в формате книг или профессиональных переводов сделанных для них?
P.S. А, есть ли, текущаяя дорожная карта проекта?
Карта пока только в голове, думаю, что скоро ее оформлю и зафиксирую в репозитории.
Отличная статья, давно слежу за Lingtrain и созданием параллельных книг, да вот никак руки не доходят. Будет интересно прочитать про книгу-трансформер.

Можно будет выбирать любую пару языков, играть с подсветкой, менять режимы (одна/две колонки, чередование абзацев), шрифты и другие штуки.
Хочу сделать, чтобы можно было развернуть такую книгу у себя на GitHub Pages и читать с любого устройства.
Я думал про такую штуку лет 7 назад но понял что не осилю запилить good enough выравнивание.
Так вот если у вас оно есть и параллельная книга цифровая, можно показывать текст на языке, на котором человек бы хотел читать, а при клике делать фоллбек предложения в его родной язык. Дополнительные клики переводят абзац, страницу.
Это будет mobile friendly по сравнению с параллельной книгой + взгляд не цепляется за текст на родном языке.
А еще клик это сингал и можно запоминать все места где человек захотел перевод и потом использовать их для повторения.
Хорошо бы развернуть всю систему на общедоступном мощном сервере.
Метод чтения Ильи Франка — метод, облегчающий чтение книг на иностранном языке благодаря особому расположению оригинального текста и перевода (без упрощения текста оригинала). В книгах, изданных с использованием данного метода, текст разбит на небольшие отрывки.
Можешь замутить ресурс с книгами по этому методу. Я когда-то давно искал такие книги
Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов