Комментарии 12
Спасибо за техническую публикацию.
Интересно!
А вы не пробовали переводить с русского на английский? И как можно добавить в вашу систему терминологию из каких-то специфических областей, например, из квантовой механики или йоги/буддзма?
С русского на английский не пробовал.
Терминологию из каких-то специфических областей можно добавить в системный промт (прямо за основным текстом), Ну и поменять его начало на примерно следующее "Вы — дотошный переводчик, специализирующийся на переводе технической литературы по квантовой механики с английского на русский язык..."
в заголовке написано 'качественно', какими тестами вы это проверяли?
почему выбрана именно модель от yandex? у нее не очень хорошо со следованием инструкций или у вас есть системный промпт, который дает высокое качество?
"Про качество перевода" я расписал в конце своего поста, проверял на разных текстах (в основном художественных) просто переводил разными онлайн системами и сверял полученный результат, получалось примерно на одном с ними уровне.
Про "почему выбрана именно модель от yandex" тоже написано. Мне она показалась (после тестов) на сегодня лучшей.
рекомендую вместо 'примерно' и 'показалось' использовать какую то цифровую метрику, в идеале автоматически вычисляемую... в этом случае вы можете протестировать с разными моделями и получить возможность сравнивать их численно.
Спасибо!
А можно также подробно, но чтобы еще и "озвучка" была ? )
Нет, не пользуюсь озвучкой (сам читаю). Но, немного побродив по интернету, нашёл форум тех, кто пользуется и у них на сегодня самая популярная сборка для оффлайн озвучки текста это Demagog + Model Silero. Там вроде всё довольно просто и уже описано как пользоваться.
https://mytts-info.ucoz.net/forum/16 (ссылка на их форум)
Сейчас такое состояние развития AI, что можно вайбкодить свои велосипеды

Модель mradermacher/MIXdevAI-yandexGPT5-8B.Q8_0.gguf, пример перевода:
Каковы функции тысяч поразительно искажённых структур, среди которых он блуждал? Их червеобразные формы и замысловатые очертания не раскрывали их назначения. Он мог только продолжать идти вперёд, недоумевая.
Глава 10
Ещё одна стена. Это была не слишком высокая стена, не более двух метров, но её хватило, чтобы остановить его. Он стоял, слегка покачиваясь, пот струился по его лицу, выглядя старше своих лет и уставившись на новое препятствие, как если бы это была гора Такелейс на Моте. Силы покидали его. У него всё ещё хватало разума, чтобы задуматься об иронии всего происходящего. Учитывая то, через что он прошёл, принимая во внимание всё, что он испытал в своей короткой, но насыщенной жизни, умереть от жажды, от простой нехватки воды, можно было бы считать почти благословением. В смерти он, наконец, обрёл бы ту домашнюю человечность, которую искал так долго. Он сожалел только о Пипе, чья преданность ему приведёт к её нежелательной и почти одновременной кончине. В целом, однако, он предпочёл бы не умирать.
Только что с помощью qwen coder agent и локальной qwen3.6-35b-a3b (требует примерно от 32гб vram) накодил такой скрипт, причем собственно скрипт переводчик с простым пайплайном он написал за считанные минуты, я дольше задание ему оформлял (тз примерно на 10 строчек), а дальше я его часами крутил, экспериментировал с пайплайнами и со способами оформления результата перевода (epub/fb2/html), очень интересно наблюдать даже за такой слабой моделью, как она работает, какие ошибки допускает, как их исправляет.
То что у современного ИИ уже получилось, работает на уровне уверенного в себе novice или даже middle, ему прикрутить качественную читалку документации (того же msdn) в виде скила, и будет совсем интересно (в прицнипе man-ы оно читать может). Я не пользовался в этом режиме топовыми моделями но вижу очень любопытную ловушку, если вы начнете оплачивать такую модель по токенам без учета кеширования (обычно провайдеры, поддерживающие кеширование, требуют оплату кеша по токенам, хоть и дешевле но все еще заметно), а так как каждый запрос там десятки тысяч токенов (и выше, если проект требует больше памяти), это заметно ударит по карманам... локально этого не видно, кеш работает почти мгновенно.
p.s. попробовал в качестве модели для перевода использовать гугловские на 2b и 4b, слабоваты они, особенно если переводить нужно html верстку. А вот та же qwen, работает так же быстро но качеством по больше.

Собираем комплекс для качественного офлайн-перевода текстов, работающий на самом обычном игровом компьютере