Pull to refresh

Comments 25

Сергей, это действительно грандиозно. Ждем добавления санскрита!

Спасибо! Обязательно попробую дообучить, учитывая, что для него есть параллельный корпус.

Отличный проект! А есть ли возможность автоматизировать создание epub/mobi книг для чтения "по методу Ильи Франка"? Это когда читаешь на иностранном языке, но рядом с каждым предложением стоит перевод на русский, курсивом. Очень похоже на то что вы публикуете в своём телеграм-канале, но у вас перевод целыми абзацами и в PDF.

Привет, выравнивание идет на уровне предложений, так что в принципе можно разместить их последовательно или одно под другим.

В книжке-трансформере будут разные режимы. Про epub тоже подумаю.

В Linux и в частности моём случае использования Puppy Linux, есть команда в контекстном меню (правая клавиша мыши) на файле (пункт выбора UExtract)
так, вот она позволяет средствами системы условно «разархивировать» и файл PDF в текущюю директорию (в формате HTML, Layout, Raw text, картинки)
а, далее можно открыть HTML файл в i-net браузере со встроенным функционалом перевода текста (например SlimJet) и после перевода сохранить или в HTML или PDF (и также его «разархивировав» по UExtract)
после этих действий получаются два файла (исходный и переведённый) исходного содержания, но имеющих шероховатости, как переведённые «слова», которые стоило не переводить, а оставить в англо-транскрипции исходя из контекта содержания текста.

так вот вопрос: в какой степени возможно отработать и такие Тексты или HTML файлы по представленной Вами методике, чтобы оставить не требующие перевода англо-язычные слова в результирующем файле после их синхронизации (например на основе отдельного словаря слов)

P.S. При разархивации PDF файлов в формате HTML каждая строка оформлена строкой, а не в общий абзац, что может не позволить нормально работать с таким файлом при его редактировании/правке в дальнейших инструментах.
Похоже, UExtract — это специфичная для Puppy Linux утилита. Repology о такой не знает.
Возможно т.к. она пытается разархивировать множество форматов,
но в плане работы с PDF она, вроде, использует утилиты пакета Poppler.

P.S. Саму Puppy Linux (начиная от Tahr, Xenial, Bionic… Jammy) запускаю в формe LiveCD через Grub2Dos с внешнего SSD. При этом, браузер, к примеру FireFox использую последней версии (обновляя его), сейчас 108, но, бывает, он на каких то сайтах и в таком варианте безбожно зависает не реагируя на мышинные действия и приходится или отключать сетевой кабель или перезагружать систему, (х.з., что такое с ним пытаются проделать скрипты таких сайтов), но это нестрашно так как система загружается каждый раз с SSD в варианте LiveCD и всякой малваре, думаю, такой «прикуп» не по нутру.

В рамках такого варианта, бывает, и собираю какое то ПО штатным Devx GCC пакетом и даже достаточно тяжёлое собиралось.
А можно пример текстов, которые вы хотите выровнять?
Да, написал сообщение в личку, чтобы не засорять текущий тред.
Рад, что может быть дальнейшее улучшение функционала возможностей проекта.

Как, понимаю, сейчас интересно в «тестировнии» проекта использовать оригинальные англоязычные тексты и их перевод в сети в формате книг или профессиональных переводов сделанных для них?

P.S. А, есть ли, текущаяя дорожная карта проекта?
Сейчас скорее хочется еще больще автоматизировать процесс, от препроцессинга до полного выравнивания. Плюс уделить время малоресурсным языкам и сделать более доступную версию — оптимизировать модели и развернуть на общедоступном сервере.

Карта пока только в голове, думаю, что скоро ее оформлю и зафиксирую в репозитории.

Отличная статья, давно слежу за Lingtrain и созданием параллельных книг, да вот никак руки не доходят. Будет интересно прочитать про книгу-трансформер.

Книга-трансформер будет выглядеть примерно так: image

Можно будет выбирать любую пару языков, играть с подсветкой, менять режимы (одна/две колонки, чередование абзацев), шрифты и другие штуки.

Хочу сделать, чтобы можно было развернуть такую книгу у себя на GitHub Pages и читать с любого устройства.

Я думал про такую штуку лет 7 назад но понял что не осилю запилить good enough выравнивание.

Так вот если у вас оно есть и параллельная книга цифровая, можно показывать текст на языке, на котором человек бы хотел читать, а при клике делать фоллбек предложения в его родной язык. Дополнительные клики переводят абзац, страницу.

Это будет mobile friendly по сравнению с параллельной книгой + взгляд не цепляется за текст на родном языке.

А еще клик это сингал и можно запоминать все места где человек захотел перевод и потом использовать их для повторения.

Спасибо. Я как раз работаю над книгой-трансформером, там будут разные режимы.

Предварительная версия тут, на примере Мастера и Маргариты

https://averkij.github.io/margo

Хорошо бы развернуть всю систему на общедоступном мощном сервере.

а много ли лошадей под капотом нужно?

Зависит от нагрузки. Плюс для многопользовательского режима нужны технические доработки, — очередь задач, оптимизация моделей и т.д.

Метод чтения Ильи Франка — метод, облегчающий чтение книг на иностранном языке благодаря особому расположению оригинального текста и перевода (без упрощения текста оригинала). В книгах, изданных с использованием данного метода, текст разбит на небольшие отрывки.

Можешь замутить ресурс с книгами по этому методу. Я когда-то давно искал такие книги

Франка мы, конечно, все знаем. У него не только перевод, но и разные варианты + примечания. Автоматически можно сделать что-то более простое, типа подстрочного перевода.

разные варианты + примечания = все же не сильная сторона книг Франка, поэтому да, это замена Франка в сети

UFO just landed and posted this here
Sign up to leave a comment.

Articles