neowisard Sep 14 2025 at 18:15

Переводим fb2 книжки, с нейронками, для себя

Hard

8 min

14K

Python * DIYAbnormal programming * Content-marketing * Prototyping *

From sandbox

Comments 9

Shado_vi Sep 14 2025 at 21:40

использовать графовую базу данных.
для одной из вариаций применения https://arxiv.org/html/2507.03311v1.

или предварительно прогнать несколько раз через несколько разных моделей и составить резюме для каждого персонажа, события, места и тп.

искать помощи для создания промтов для перевода у тех кто имел опыт в переводе художественных текстов.

использование адаптеров к моделям под определённую стилистику/жанр произведения.

neowisard Sep 15 2025 at 07:00

Спасибо, резюме персонажа это идея, да. На текущий момент прототипа достаточно, при этом его однозначно буду улучшать.

Этой статье если заинтересуются переводчики , то возможно добавят идей или подходов.

Shado_vi Sep 15 2025 at 13:19

агентские фреймворки могут иметь интеграции с rag graph.

попробовать другие модели помимо мистраля(литературность у него хромает, вроде), например qwen3 или особенно неплох может быть gpt-oss(для 20b доступна moe).
варианты abliterated этих моделей могут иметь свои плюсы и минусы.

предложение создавать справочники(резюме персонажа) применяется писателями и переводчиками. можно и другие идеи черпать из их технических методов.

badsynt Sep 14 2025 at 23:26

Есть одна неплохая open source программа для работы с различными е-буками. Называется Calibre. Возможно Вы о ней слышали. К ней есть плагин для перевода книг.

https://translator.bookfere.com/

Он делает многое, из того, что Вы хотели. Я использовал его с Gemma 3 12B с помощью LM Studio server с неплохими результатами.

Кстати, есть на Хабре и статья об этом.

https://habr.com/ru/articles/925330/

К сожалению моей проблемы это никак не решает. ( Перевод PDF научных статей и книг, нагруженных многоэтажными формулами, рисунками и таблицами). Даже Acrobat при попытке конвертировать pdf хоть куда-то превращает все в кашу. Гораздо легче, если есть исходники TEX, как на arxiv.org. Их можно перегнать в epub или HTML. Но уже виден свет в конце туннеля. Конвейер PDF->Картинка-> OCR-> Markdown->HTML-> Google translator работает очень быстро и формулы с картинками на месте, только гуглоперевод отвратный :(

neowisard Sep 15 2025 at 07:04

Да плагины калибра смотрел год назад, там упрощенно , мне возможностей не хватило.

Научные статьи это боль вероятно, но короткие , в сотню страниц, chatgpt в pdf вполне себе обрабатывает.

badsynt Sep 15 2025 at 08:25

Плагин действительно простенький. Но это продукт, а не MVP. И книжку переводит не 2 дня, а 2 часа. С другой стороны, прогресс нейросетей идет с такой скоростью, что иногда задумываешься, а стоит ли усложнять, биться головой о стену. Может подождать чуток и оно само с собой разберется...

neowisard Sep 25 2025 at 15:50

Я понимаю, но книжку это не переведет к сожалению. Фанфик да, книгу нет.
Для перевода книги нужна передача контекста , боооольшой словарь и все такое. Я был вынужден написать эту поделку чтоб доказать себе и некоторым товарищам что переводить таким образом можно).
Потому что то что генерят подобные плагины не читабельно в части книги, ну больше 50-100 страниц. Голова лопнет от постоянных переключений имен, родов, полов и т.д. Но эти плагины решают задачу игр, фанфиков, историй, и помощи в быстром и связном переводе не очень больших текстов. Переводится 2 дня потому что тысяча страниц, а не потому чтото не так) . И на нейронках больше 20B, иначе текст для книжки тоже не подойдет.
Вообщем коллега выше добавил идей, и в целом меня устраивает итоговый результат -это можно читать , не так комфортно как могло быть, но уже можно.

Dr_Faksov Sep 17 2025 at 01:57

Основная для меня проблема Calibre - невозможность редактирования из него fb2. Хотя я стал всё больше и больше уходить в epub.

С PDF всё печально. Там просто может не быть текста. Вообще.

illian Sep 27 2025 at 01:12

Интересная статья. Я тоже написал переводчик на питоне, с поддержкой llm, и более специфичных моделей, в котором есть как модуль перевода (вроде гугл транслейт), так и перевод файлов. Есть кэши, разбивка на части и тд. Пока что только fb2, epub, txt. Планов много, разработка идёт. Все хочу написать статью, и все не соберусь)