Pull to refresh

Мы пахали, я и трактор

Level of difficultyEasy
Reading time6 min
Views1.3K

TL:DR Это история, как я перевёл книгу с помощью DeepSeek

Краткая предыстория: я люблю читать книги. В последнее время предпочитаю достаточно специфический жанр литературы, который в обиходе называется «литРПГ». Проблема в том, что в русскоязычном сегменте качественных книг этого жанра довольно мало – в основном «прода» с Автор.Тудей, на фоне которой даже Донцова (было дело, я был молод и мне было совсем нечего читать) кажется отлитой в граните классикой. В англоязычном же сегменте довольно много качественных книг, но с переводами у них довольно туго – в основном ими занимаются энтузиасты, соответственно, качество переводов гуляет от «очень хорошо» до «гугл-транслейт», причём иногда в рамках буквально одной книги.

Собственно, сама история началась с моей попытки найти перевод книги «He who fights with monsters». Как оказалось, официального перевода не существует, а неофициальный... думаю, лучшей его характеристикой будет «почти читаемо». Примерно как еда в посредственной забегаловке: голод утолить можно, но потом не жалуйтесь на изжогу, бурчание в животе и позывы срочно посетить санузел. Прочитав несколько глав, и поняв, что удовольствия от такого чтения не получить, я начал думать, что же делать дальше. С нейросетями до этого мне сталкиваться практически не доводилось, несколько попыток сгенерировать картинку с антропоморфными зубными щётками в «Кандинском» - не в счёт. Для эксперимента я попробовал сходу зарядить в ДипСик пару глав книги – на удивление, получилось весьма неплохо. Заметно лучше, чем тот перевод, что я нашёл в интернете. Проблема была только в том, что в переведённом фрагменте отсутствовала примерно треть текста. Как выяснилось, если кидать на перевод сразу десяток страниц, ДипСик начинает филонить и переводит не всё. Причём делает это довольно незаметно – я это заметил только когда решил посмотреть, как перевёлся один кусок, который был особо коряво переведён в неофициальном переводе. Выяснилось, что никак – этого абзаца в переводе не было вообще. Пришлось отказаться от тактики перевода крупных кусков. Методом проб и ошибок было выяснено, что оптимальный размер одного куска текста – в районе 300-500 слов (~3/4 страницы формата А4). Меньше – получается сильно медленнее, больше – начинаются пропуски текста и...

Галлюцинации нейросети. В моём случае это были куски текста, которых не было в оригинале. ДипСик тупо добавлял в конец переведённого фрагмента свой собственный текст. Как правило, по паре предложений, но иногда добавлялось по 4-5 абзацев. Причём ДипСик бывает крайне настойчив в своих галлюцинациях: один кусок из трёх предложений я даже запомнить успел, мне он предлагался раз десять практически подряд. Но галлюцинации бывают и в более лайтовом варианте, например...

ДипСик всячески пытался разнообразить достаточно бедный язык оригинала. Переводимая книга – отнюдь не Шекспир, поэтому разнообразием синонимов она не блистала, что ДипСик активно пытался исправить. Особенно это бросалось в глаза в диалогах: там, где в оригинале два персонажа просто беседуют, в переводе ДипСика они быстро доходят чуть ли не до ожесточённого спора или жёсткого полового акта, в зависимости от предыдущей ситуации. И это ни в коем случае не преувеличение, я специально сохранил кусок оригинального текста, и перевод его ДипСиком, где простой диалог двух влюблённых о прошлом одного из них превратился в подробное описание того, кто, куда и что вставил в процессе обмена репликами, и с какой интенсивностью потом двигался. Впрочем, прикол с «Boromir smiled» появился задолго до интернета.

Кстати, об интернете. Фразу «Server busy, please try again later» я видел гораздо чаще, чем переведённый фрагмент. Более-менее нормально ДипСик работал только после полуночи. Я прямо даже расстроился, что нельзя туда задонатить немножко денег, и больше никогда не видеть эту фразу. Мелькала даже мысль перейти на ЧатЖПТ, но не в моих привычках без особой причины ходить туда, где мне не рады.

Даже когда я таки получал не сообщение об ошибке, а перевод, он был... разным. А именно – был большой разброс в качестве перевода. Как правило, ИИ выдаёт очень неплохой результат, в котором максимум поправить пару слов, или вообще ничего править не надо. Но иногда – проще загнать в гугл транслейт, или перевести самому, чем пытаться причесать то, что выдаст ИИ. И чаще всего причиной этому были... списки. Долбаные списки, которые пихаются везде и всегда, наплевав на исходный текст. Когда в сотый раз вставляешь в чат сплошной абзац английского текста, а на выходе получаешь список – глаз начинает дёргаться. Избавиться от них дополнительными промтами не сложно, но они появляются снова и снова.

Чехарда с терминологией. У ДипСика довольно быстро достигается максимальная длина чата, и приходится открывать новый. При этом весь контекст (устоявшиеся термины, имена и т.д.) приходилось указывать заново. Возможно, эту проблему можно было решить, составив какой-нибудь замороченный промт, но я слишком ленив.

Не знаю, как другие нейросети, но конкретно ДипСик достаточно специфически работает со своим словарным запасом.По крайней мере, у меня сложилось именно такое впечатление. С одной стороны – этот словарный запас достаточно небогат. С другой стороны – он используется полностью. В то время, как у обычного человека существуют понятия активного и пассивного словарного запаса – у дипсика такой дихотомии, судя по всему, нет, он использует все доступные ему слова в равной мере. В результате складывается ощущение, словно ты изучаешь процедурно-генерируемую карту: вроде как и достаточно разнообразно, но как-то не очень естественно... Поэтому некоторые фразы приходится править ручками. В принципе, можно было бы оставить их, как есть, но тогда возникает ощущение неестественности.

Проблема «лишних пальцев» тут тоже есть: местами очень хорошо заметно, что нейросеть на самом деле не понимает смысла текста, из-за чего, например, часто путает субъекта и объекта в описании. Ну, или попросту говоря, регулярно переводит, вопросы типа «кто тебя любит больше?», как «кого ты любишь больше?». Ну, или, что чаще встречается – это незнание идиом и отсылок. Причём не само это незнание (я сам этих идиом и отсылок не знаю), но когда посреди связного английского текста встречается какое-то бредовое словосочетание, то у меня нутро вопит «погугли, явно какая-то идиома», а ИИ просто переводит в лоб. Вот этой самой чуйки на «что-то тут наверное не так» явно не хватает. Хотя иногда наоборот – в комментариях ИИ пишет «тут отсылка на всем известную идиому», и дальше будь добр промтами или гуглом выяснять, о чём речь.

Периодически проскакивают слова на иностранном языке. В основном – английские, но регулярно попадаются иероглифы. Забавно, что в моём случае иероглифы начинали попадаться, как только в тексте начинали упоминаться драконы. Самое правдоподобное объяснение, которое мне приходит в голову – ДипСик не нашёл нормального слова на русском языке, и бахнул подходящее из другого. «как это по русски... Послайсить чиз!»

В целом же – более, чем неплохо. Я бы даже сказал, очень хорошо. При всех своих недостатках ИИ делает перевод даже крупной художественной книги достаточно интересным и ненапряжным занятием: книгу почти на 800 страниц я перевёл за примерно месяц. Не напрягаясь, по вечерам и выходным, в свободное время, в качестве развлечения. Мысли «да ну его нахрен» не возникало ни разу, притом, что у меня подобные мысли возникают часто, и многое я бросаю на середине. На выходе получается результат, который, если мыслить школьными оценками, болтается между «твёрдое три» и «три с минусом», а после ручной доработки – может превратиться в «твёрдое четыре». Но для этого требуется знание языка, банально чтобы исправлять огрехи перевода, и давать ИИ по рукам, как только он начинает шалить.

И вот в этом на самом деле скрыта проблема. У меня устойчивое опасение, что нас захлестнёт вал некачественных переводов. Ведь это так просто: кидай боту куски текста, и потом собирай из них готовый перевод. Да, хреновый, но читаемый. На то, чтобы просто перекидать сто страниц текста боту – нужно всего 4-5 часов времени. Подозреваю, что процесс можно автоматизировать, и ускорить ещё раз в пять. На то, чтобы потом «причесать» перевод, времени надо уже НАМНОГО больше, и его не автоматизировать. А зачем тратить это дополнительное время, если на выходе и так минимально приемлемый перевод? Как я уже писал выше – просто покидав боту текст, ты получаешь результат «на троечку». На всякий случай напомню, что тройка – это «удовлетворительно». Если вас устраивает тройка – зачем напрягаться больше?

Описанный выше опыт, кстати, здорово научил меня видеть переводы, сделанные с помощью ИИ. И хочу сказать, что такие переводы уже вовсю продаются на Литресе. Попробуйте почитать книги из серии «Dungeon crawler Carl», в русском варианте - «Карл – обходчик подземелий», хотя бы ознакомительный фрагмент. От них прямо воняет необработанным ИИ-переводом. В результате люди читают книгу, и не понимают, почему она считается одной из лучших серий ЛитРПГ в англоязычных странах. «Фигня этот ваш Шаляпин. Мне вчера сосед по телефону напел пару его песен».

Резюмируя всё вышесказанное - заголовок отлично описывает моё впечатление от ИИ в качестве переводчика: это именно трактор. Инструмент, который заметно облегчает жизнь, убирая из него «обезьянью работу». И как любой инструмент, это палка о двух концах. Сам по себе трактор не гарантирует качество обработки земли, и тем более – не гарантирует урожай, без нормального тракториста этот трактор может только испортить поле. А с хорошим трактористом (переводчиком), и на хорошем поле (исходном тексте) – обеспечить очень хорошие результаты. Осталось надеяться, что нас не захлестнёт вал хреновых переводов, как в своё время захлестнул вал графомании со всяких там Автор.тудей.

P.S. Оказалось, что выложить перевод чуть ли не сложнее, чем сделать его. По крайней мере - мне так и не удалось этого сделать: на флибусте пишет, что "ваш аккаунт слишком молод", тот сайт, где я нашёл изначальный, хреновый перевод, попросту запретил выкладывать мне свою версию, и т.д.

Tags:
Hubs:
+5
Comments6

Articles