Комментарии 22
Огонь!
В целом проект хорош не только как переводчик, но и как генератор книги в удобную html-читалку.
Я сам как раз уже пол года как не добью GUI-приложение для перевода художественного текста через нейронки (в коде оно работает уже полтора года успешно)может тоже статью на хабр сделаю как закончу.
Интересная тема - переводы через AI потому как контекстное окно накладывает свои ограничения, как и тематика первоисточника.
По опыту хочу заметить что скинуть буферную память на самих агентов (ваши же glossary.md) очень хреновое решение потому как каждую книгу тогда нужно тюнить и перечитывать на правки, потому как гарантировано будут артефакты там где пошакалило смысл (или глоссарий который тоже не нулевой шанс быть пошакаленым если агенты с ним работают напрямую)
По опыту хочу заметить что скинуть буферную память на самих агентов (ваши же glossary.md) очень хреновое решение потому как каждую книгу тогда нужно тюнить и перечитывать на правки
А как тогда делать? Контекст переполняется. Результаты ухудшаются
Строгая типизация
Сначала просим собрать данные в глоссарий, что бы вернул детерминировано в том же json. Важно что бы в контекстное окно с запасом влазил разбор с обсуждениями. Эти данные наполняют базу.
Далее базу переводим машинно по контексту и ОБЯЗАТЕЛЬНО вычитываем все глазами.
И наконец заряжаем "чистовой перевод" подставляя валидные куски глоссария под чанки (сопоставление по первой операции, где мы не только заполнили сам глоссарий но и сохранили в каких чанках какие значения были найдены)
В своей задаче с художественной литературой я еще выделил отдельную группу в "часто встречаемые значения" которая выдавалась с обычным глоссарием по чанку что значительно улучшило перевод ведь часто в книгах хватает иносказательности. Но я разрабатывал это еще во времена когда gpt только 4 вышла, сейчас с 1М окнами можно собирать и отдавать в качестве точки опоры гораздо больше данных.
Кому интересно - для Calibre (это такой известный опенорс менеджер библиотек с читалкой почти любых форматов) есть плагин Ebook Translator, который бьет текст на кусочки и постепенно делает перевод через OpenAI-compatible API. Тут пример инструкции по установке (делал под себя, кому нужно - пожалуйста, адаптируйте под свои реалии)
Ладно, за платное обычно дают качество
Как бы попонятнее объяснить...

Я, когда переводил что-то для себя, всегда делал две видимых страницы рядом - оригинал и перевод. Сохраняя структуру абзацев.
Много учебников в djvu. Вот их хорошо бы перегонять в текст вместе с формулами. Даже без перевода.
Чую, в PDF с растровыми картинками внутри (в виде отсканированных страниц) будет также плохо. Это явно только для текстового (векторного) PDF 😥
Нет, здесь не описано в README файле репозитория я описал, что с помощью OCR утилит можно преобразование сделать.
Что можно использовать сторонние утилиты - это хорошо. Поэтому явно можно прикрутить и ddjvu для конвертации DJVU в PDF. Но использование OCR у меня всё равно всегда вызывает уныние (там надо бы вычитку по-любому провести и т.п.).
Эта вычитка как раз и делается агентами здесь.
С помощью OCR мы получаем некий текст, а этот текст нейросеть потом сравнивает с png страницами. Это по моей задумке, должно убирать любые неточности после OCR.
Ну надо значит лично заценить. А то может я уже давно неизвестно чем просто занимаюсь и нейросети уже способны ошибки OCR отловить. Со всеми неточностями все равно явно справиться не удастся - там просто в исходном файле могут быть всякие опечатки (которые явно затруднят перевод) и просто плохо отсканированные фрагменты. И ещё надо проверить как копируется форматирование текста из PDF: скопируются ли всякие подчёркивания и надчёркивания, как будет со шрифтами в неправильной кодировке или символами за пределами Unicode - а то явно должны всякие формулы пострадать. Ну ещё раньше TeX любил делать всякие PDF со шрифтами в Type3 (растровыми) и там вроде был и курсив, и полужирный, но текст упорно копировался без всякого форматирования.
Я, сейчас, делаю двуязычную книгу по, скажем, французской грамматике на французском языке. При этом, даже не идеальный перевод от Гугл-транслэйта – вполне «рулит» :) . Вот пример:


А так весьма хорош опенсорс «Pdf2htmlEX» либо бесплатные сервисы на его основе. Однако, в моем случае, достаточно копировать содержимое цифрового pdf-файла в текст через буфер обмена.
Технические учебники — худший случай для перевода, и именно поэтому правильный полигон. Чтобы правильно перевести такую книгу, человек должен быть экспертом (1) в области знаний этой книги, (2) в области языка, на котором эта книга написана, и (3) в области языка, на который переводит.
Технический перевод - это простейший случай перевода. Для этого нужен только (1) пункт. (2) и (3) автоматически из него следуют.
Не согласен. Вот учебник по мат. анализу. И я хочу перевести его на Киргизский язык.

Для этого нужен только (1) пункт. (2) и (3) автоматически из него следуют.
Судя по вашему высказыванию, получается, если я эксперт в мат. анализе, то я автоматически и эксперт в Японском и Киргизском языках.
я автоматически и эксперт в Японском и Киргизском языках.
Да Вы и в русском-то не эксперт...
Прилагательные, образованные от географических названий, пишутся с прописной буквы, если они являются частью составных наименований – географических и административно-территориальных (см. § 169), индивидуальных имен людей (§ 157), названий исторических эпох и событий (§ 179), учреждений (§ 189), архитектурных и др. памятников (§ 186, 194), военных округов и фронтов. В остальных случаях они пишутся со строчной буквы. Ср., напр.: невские берега, невские набережные и Александр Невский, Невский проспект, Невская битва; донское казачество и Дмитрий Донской, Донской монастырь; московские улицы, кварталы, московский образ жизни и Московская область, Московский вокзал (в Петербурге), Московская государственная консерватория [ ПАС 2011: 153].
Не согласен. Вот учебник по мат. анализу. И я хочу перевести его на Киргизский язык.
Хорошо, вы правы. Я уточню свою мысль. В тех случаях, когда задача перевода осмысленна, моё высказывание верно. Если вам действительно нужно перевести учебник матанализа на киргизский язык, и вы являетесь экспертом в матанализе, то, во-первых, вы уже знаете киргизский язык (иначе зачем вам учебник матанализа на киргизском языке) и, во-вторых, уже знаете хотя бы один из языков, на которых написаны хорошие оригинальные учебники по матанализу (английский, немецкий, французский, русский). Откапывать японский учебник не имеет никакого смысла.
Молодец. Переводи больше!
Делаю уже пару лет sunny narrator свой на гитхабе, он для перевода художественных книг и серий локально, в fb2 формате, рекомендую взять оттуда логику для работы со словарем, это ключ к качеству .
И для учебников надо придумать как перерабатывать графику и формулы, это токенозатратно и криво обычно. Я как правило перевожу только обычные книги и серии на 24гб видеокарте ( занимает полдня день).
Очень хороший скилл на гитхабе есть от китайцев deusyu под опус, но для художественной литературы это прям сер...ом по яйцам для меня, очень трудно читать.

Open-Source инструмент для автоматического перевода книг