Comments 9
использовать графовую базу данных.
для одной из вариаций применения https://arxiv.org/html/2507.03311v1.
или предварительно прогнать несколько раз через несколько разных моделей и составить резюме для каждого персонажа, события, места и тп.
искать помощи для создания промтов для перевода у тех кто имел опыт в переводе художественных текстов.
использование адаптеров к моделям под определённую стилистику/жанр произведения.
Спасибо, резюме персонажа это идея, да. На текущий момент прототипа достаточно, при этом его однозначно буду улучшать.
Этой статье если заинтересуются переводчики , то возможно добавят идей или подходов.
агентские фреймворки могут иметь интеграции с rag graph.
попробовать другие модели помимо мистраля(литературность у него хромает, вроде), например qwen3 или особенно неплох может быть gpt-oss(для 20b доступна moe).
варианты abliterated этих моделей могут иметь свои плюсы и минусы.
предложение создавать справочники(резюме персонажа) применяется писателями и переводчиками. можно и другие идеи черпать из их технических методов.
Есть одна неплохая open source программа для работы с различными е-буками. Называется Calibre. Возможно Вы о ней слышали. К ней есть плагин для перевода книг.
https://translator.bookfere.com/
Он делает многое, из того, что Вы хотели. Я использовал его с Gemma 3 12B с помощью LM Studio server с неплохими результатами.
Кстати, есть на Хабре и статья об этом.
https://habr.com/ru/articles/925330/
К сожалению моей проблемы это никак не решает. ( Перевод PDF научных статей и книг, нагруженных многоэтажными формулами, рисунками и таблицами). Даже Acrobat при попытке конвертировать pdf хоть куда-то превращает все в кашу. Гораздо легче, если есть исходники TEX, как на arxiv.org. Их можно перегнать в epub или HTML. Но уже виден свет в конце туннеля. Конвейер PDF->Картинка-> OCR-> Markdown->HTML-> Google translator работает очень быстро и формулы с картинками на месте, только гуглоперевод отвратный :(
Да плагины калибра смотрел год назад, там упрощенно , мне возможностей не хватило.
Научные статьи это боль вероятно, но короткие , в сотню страниц, chatgpt в pdf вполне себе обрабатывает.
Плагин действительно простенький. Но это продукт, а не MVP. И книжку переводит не 2 дня, а 2 часа. С другой стороны, прогресс нейросетей идет с такой скоростью, что иногда задумываешься, а стоит ли усложнять, биться головой о стену. Может подождать чуток и оно само с собой разберется...
Я понимаю, но книжку это не переведет к сожалению. Фанфик да, книгу нет.
Для перевода книги нужна передача контекста , боооольшой словарь и все такое. Я был вынужден написать эту поделку чтоб доказать себе и некоторым товарищам что переводить таким образом можно).
Потому что то что генерят подобные плагины не читабельно в части книги, ну больше 50-100 страниц. Голова лопнет от постоянных переключений имен, родов, полов и т.д. Но эти плагины решают задачу игр, фанфиков, историй, и помощи в быстром и связном переводе не очень больших текстов. Переводится 2 дня потому что тысяча страниц, а не потому чтото не так) . И на нейронках больше 20B, иначе текст для книжки тоже не подойдет.
Вообщем коллега выше добавил идей, и в целом меня устраивает итоговый результат -это можно читать , не так комфортно как могло быть, но уже можно.
Основная для меня проблема Calibre - невозможность редактирования из него fb2. Хотя я стал всё больше и больше уходить в epub.
С PDF всё печально. Там просто может не быть текста. Вообще.
Интересная статья. Я тоже написал переводчик на питоне, с поддержкой llm, и более специфичных моделей, в котором есть как модуль перевода (вроде гугл транслейт), так и перевод файлов. Есть кэши, разбивка на части и тд. Пока что только fb2, epub, txt. Планов много, разработка идёт. Все хочу написать статью, и все не соберусь)
Переводим fb2 книжки, с нейронками, для себя