sys_admin_sysoev26 мая в 20:19

Open-Source инструмент для автоматического перевода книг

Простой

5 мин

13K

ХимияИскусственный интеллектПрофессиональная литература *

Кейс

Из песочницы

+12

Комментарии 22

gerbert_MX 26 мая в 20:30

Огонь!

В целом проект хорош не только как переводчик, но и как генератор книги в удобную html-читалку.

Я сам как раз уже пол года как не добью GUI-приложение для перевода художественного текста через нейронки (в коде оно работает уже полтора года успешно)может тоже статью на хабр сделаю как закончу.

Интересная тема - переводы через AI потому как контекстное окно накладывает свои ограничения, как и тематика первоисточника.
По опыту хочу заметить что скинуть буферную память на самих агентов (ваши же glossary.md) очень хреновое решение потому как каждую книгу тогда нужно тюнить и перечитывать на правки, потому как гарантировано будут артефакты там где пошакалило смысл (или глоссарий который тоже не нулевой шанс быть пошакаленым если агенты с ним работают напрямую)

sys_admin_sysoev 27 мая в 08:07

По опыту хочу заметить что скинуть буферную память на самих агентов (ваши же glossary.md) очень хреновое решение потому как каждую книгу тогда нужно тюнить и перечитывать на правки

А как тогда делать? Контекст переполняется. Результаты ухудшаются

gerbert_MX 27 мая в 08:45

Строгая типизация

Сначала просим собрать данные в глоссарий, что бы вернул детерминировано в том же json. Важно что бы в контекстное окно с запасом влазил разбор с обсуждениями. Эти данные наполняют базу.

Далее базу переводим машинно по контексту и ОБЯЗАТЕЛЬНО вычитываем все глазами.

И наконец заряжаем "чистовой перевод" подставляя валидные куски глоссария под чанки (сопоставление по первой операции, где мы не только заполнили сам глоссарий но и сохранили в каких чанках какие значения были найдены)

В своей задаче с художественной литературой я еще выделил отдельную группу в "часто встречаемые значения" которая выдавалась с обычным глоссарием по чанку что значительно улучшило перевод ведь часто в книгах хватает иносказательности. Но я разрабатывал это еще во времена когда gpt только 4 вышла, сейчас с 1М окнами можно собирать и отдавать в качестве точки опоры гораздо больше данных.

sys_admin_sysoev 27 мая в 09:07

Звучит классно, спасибо!
На следующей книге откатаю такой подход :)

janvarev 26 мая в 20:39

Кому интересно - для Calibre (это такой известный опенорс менеджер библиотек с читалкой почти любых форматов) есть плагин Ebook Translator, который бьет текст на кусочки и постепенно делает перевод через OpenAI-compatible API. Тут пример инструкции по установке (делал под себя, кому нужно - пожалуйста, адаптируйте под свои реалии)

Wesha 26 мая в 20:42

Ладно, за платное обычно дают качество

Как бы попонятнее объяснить...

randomsimplenumber 27 мая в 05:39

Бесплатный сыр достается 2 3 мышке.

materiatura 26 мая в 21:03

Я, когда переводил что-то для себя, всегда делал две видимых страницы рядом - оригинал и перевод. Сохраняя структуру абзацев.

diakin 26 мая в 21:52

Много учебников в djvu. Вот их хорошо бы перегонять в текст вместе с формулами. Даже без перевода.

roqin 27 мая в 06:42

Чую, в PDF с растровыми картинками внутри (в виде отсканированных страниц) будет также плохо. Это явно только для текстового (векторного) PDF 😥

sys_admin_sysoev 27 мая в 08:00

Нет, здесь не описано в README файле репозитория я описал, что с помощью OCR утилит можно преобразование сделать.

roqin 27 мая в 08:38

Что можно использовать сторонние утилиты - это хорошо. Поэтому явно можно прикрутить и ddjvu для конвертации DJVU в PDF. Но использование OCR у меня всё равно всегда вызывает уныние (там надо бы вычитку по-любому провести и т.п.).

sys_admin_sysoev 27 мая в 09:09

Эта вычитка как раз и делается агентами здесь.

С помощью OCR мы получаем некий текст, а этот текст нейросеть потом сравнивает с png страницами. Это по моей задумке, должно убирать любые неточности после OCR.

roqin 27 мая в 10:19

Ну надо значит лично заценить. А то может я уже давно неизвестно чем просто занимаюсь и нейросети уже способны ошибки OCR отловить. Со всеми неточностями все равно явно справиться не удастся - там просто в исходном файле могут быть всякие опечатки (которые явно затруднят перевод) и просто плохо отсканированные фрагменты. И ещё надо проверить как копируется форматирование текста из PDF: скопируются ли всякие подчёркивания и надчёркивания, как будет со шрифтами в неправильной кодировке или символами за пределами Unicode - а то явно должны всякие формулы пострадать. Ну ещё раньше TeX любил делать всякие PDF со шрифтами в Type3 (растровыми) и там вроде был и курсив, и полужирный, но текст упорно копировался без всякого форматирования.

Emelian 27 мая в 00:49

Я, сейчас, делаю двуязычную книгу по, скажем, французской грамматике на французском языке. При этом, даже не идеальный перевод от Гугл-транслэйта – вполне «рулит» :) . Вот пример:

Двуязычная французская грамматика, в горизонтальном представлении

Двуязычная французская грамматика, в вертикальном представлении

А так весьма хорош опенсорс «Pdf2htmlEX» либо бесплатные сервисы на его основе. Однако, в моем случае, достаточно копировать содержимое цифрового pdf-файла в текст через буфер обмена.

Pshir 27 мая в 06:15

Технические учебники — худший случай для перевода, и именно поэтому правильный полигон. Чтобы правильно перевести такую книгу, человек должен быть экспертом (1) в области знаний этой книги, (2) в области языка, на котором эта книга написана, и (3) в области языка, на который переводит.

Технический перевод - это простейший случай перевода. Для этого нужен только (1) пункт. (2) и (3) автоматически из него следуют.

sys_admin_sysoev 27 мая в 09:17

Не согласен. Вот учебник по мат. анализу. И я хочу перевести его на Киргизский язык.

Для этого нужен только (1) пункт. (2) и (3) автоматически из него следуют.

Судя по вашему высказыванию, получается, если я эксперт в мат. анализе, то я автоматически и эксперт в Японском и Киргизском языках.

Wesha 28 мая в 01:05

я автоматически и эксперт в Японском и Киргизском языках.

Да Вы и в русском-то не эксперт...

Прилагательные, образованные от географических названий, пишутся с прописной буквы, если они являются частью составных наименований – географических и административно-территориальных (см. § 169), индивидуальных имен людей (§ 157), названий исторических эпох и событий (§ 179), учреждений (§ 189), архитектурных и др. памятников (§ 186, 194), военных округов и фронтов. В остальных случаях они пишутся со строчной буквы. Ср., напр.: невские берега, невские набережные и Александр Невский, Невский проспект, Невская битва; донское казачество и Дмитрий Донской, Донской монастырь; московские улицы, кварталы, московский образ жизни и Московская область, Московский вокзал (в Петербурге), Московская государственная консерватория [ ПАС 2011: 153].

— Правила русской орфографии и пунктуации: Полный академический справочник / Под ред. В.В. Лопатина. – М., 2011, § 177 в разделе «Географические и административно-территориальные названия и производные от них слова» в разделе «Правила употребления прописных и строчных букв», с. 150–154.

sys_admin_sysoev 28 мая в 02:28

Забавно

Pshir 29 мая в 06:59

Не согласен. Вот учебник по мат. анализу. И я хочу перевести его на Киргизский язык.

Хорошо, вы правы. Я уточню свою мысль. В тех случаях, когда задача перевода осмысленна, моё высказывание верно. Если вам действительно нужно перевести учебник матанализа на киргизский язык, и вы являетесь экспертом в матанализе, то, во-первых, вы уже знаете киргизский язык (иначе зачем вам учебник матанализа на киргизском языке) и, во-вторых, уже знаете хотя бы один из языков, на которых написаны хорошие оригинальные учебники по матанализу (английский, немецкий, французский, русский). Откапывать японский учебник не имеет никакого смысла.

pz_true 27 мая в 07:13

Молодец. Переводи больше!

neowisard 29 мая в 10:15

Делаю уже пару лет sunny narrator свой на гитхабе, он для перевода художественных книг и серий локально, в fb2 формате, рекомендую взять оттуда логику для работы со словарем, это ключ к качеству .

И для учебников надо придумать как перерабатывать графику и формулы, это токенозатратно и криво обычно. Я как правило перевожу только обычные книги и серии на 24гб видеокарте ( занимает полдня день).

Очень хороший скилл на гитхабе есть от китайцев deusyu под опус, но для художественной литературы это прям сер...ом по яйцам для меня, очень трудно читать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий