illian 28 сен в 13:43

Как я разрабатывал приложение llm-translate для перевода с помощью нейросетей

Средний

14 мин

5.3K

DIY или Сделай самPython * Искусственный интеллектМашинное обучение *

Кейс

+10

Комментарии 35

NeriaLab 28 сен в 14:22

Хорошее приложение, не буду говорить о его плюсах и минусах. У меня есть только один вопрос: Как оно справится с маленькой такой задачей: "Тебя я люблю" на английский и обратно?

illian 28 сен в 14:28

В зависимости от используемой модели. Скорее всего, каждая по своему истолкует.

Приложение само по себе не переводит, а только подгатавливает текст для перевода. А переводят модели, которые создали и обучили компании и возможно дообучили другие люди.

На модели saiga_yandexgpt: Тебя я люблю. -> I love you. -> Я люблю тебя.

NeriaLab 28 сен в 15:52

Как Вы понимаете - это неверный перевод, потеря смысла и эмоций

AlexChIt 28 сен в 17:25

Смысл остался, а эмоции по такому предложению определить нельзя.

1) Можно выделить слово "Тебя": тебя люблю, а не других.

2) Можно выделить слово "люблю": тебя люблю, а других - ненавижу.

3) Можно выделить слово "я": тебя люблю я, а не они.

4) А, может, это предложение сгенерировано компьютером и вообще никаких эмоций не несёт.

NeriaLab 28 сен в 21:02

6 вариантов написания в русском языке предложения "Я люблю тебя" - и каждая имеет свою смысловую и эмоциональную нагрузку, с точки зрения онтолдогии

Ravius 28 сен в 21:16

С чего вы решили, что английский перевод правильный?

Странно говорить чтт перевод B->A (A->B->A) не работает. Ведь перевод A->B, сжимает смысл изначально, и не передавал его.

It's you I love.

You are the one I love.

Очень сильно стоит вопрос кому вообще нужен такой перевод. Он может резать слух, быть неуместным в зависимости от контекста. Так что... создавайте свое приложение которое никому не будет нужным, зато будет переводить то, как вы хотите.

NeriaLab 28 сен в 21:20

Так оно изюмительно работает, так как изначально строилось вокруг онтологии, особенностей того или иного языка, контекста и смыслов. Я думал что может есть еще прорывы в переводах, оказалось нет. То есть, получается в мире только немного качественных переводчиков, включая наш :( Печалька

x4x7 28 сен в 17:41

Вообще-то не очень понятно. А какой перевод правильный?

NeriaLab 28 сен в 21:02

Всё должно было вернуться к исходному варианту

remindscope 28 сен в 22:28

А как бы вы перевели? Искренне интересно.

illian 28 сен в 23:50

В русском тексте слова могут быть практически в любом порядке, но в английском - нет. Поэтому при переводе на английский, без дополнительного контекста с нужными эмоциями, это будет потеряно.

badsynt 28 сен в 16:18

Йода, гранд-мастер ордена джедаев нас посетил?

TheAim 29 сен в 19:05

Вау, теперь я знаю куда мне копать. Спасибо!

badsynt 28 сен в 15:41

Неправильный перевод: или же какой-то центавр ей запретил (речь про кентавров);

А альфа Центавра Вас не смущает?

illian 28 сен в 23:31

Если бы речь шла про звезду, то был бы верный. Но в данном случае ожидалось, что будут именно кентавры, если смотреть на образец от команды переводчиков.

Newm 28 сен в 19:08

У нейросеток не было желания спросить, как правильно организовывать перевод? Я месяц назад спросил... Сразу оговорюсь, мне надо было переводить самиздат, поэтому я изначально не требовал ТОЧНОГО перевода. Я запрашивал читабельный литературный перевод. И по качеству во многих случаях он был лучше оригинала.

Наиболее эффективно - это подавать на перевод столько, сколько они соглашаются отдать. Для дипсика (я переводил на нем, пока токены по ночам дешевые были) это 8К токенов, то есть на сам перевод я подавал до 10кб текста. Для контекста перед этим подается предыдущая часть до 30-50К токенов. Так решаются проблемы с определением полов героев, единства имен и предметов (хотя и не на 100%, но существенно лучше, чем по предложениям).

Дальше делался второй проход - редактура. С точно такой же подачей уже переведенного текста. И требованием доперевести непереведенные слова.

Дальше нейросетки предлагали сделать третий проход для оформления форматирования, но меня жаба задушила.

И вот после этого у меня получался текст, на котором требовалось сделать примерно по 1-4 правки на странице. То есть при большой лени можно читать даже то что получилось без правок (ну, оно конечно примерно раз на 500 кб текста заворачивало что-нибудь на китайском, это меня точно напрягало и я переводил руками на русский).

При попытках автоматически переводить по предложениям конечно скорее всего будут отсутствовать непереведенные слова, но, насколько я понимаю, читать такое нормальному человеку с удовольствием невозможно. Там спотыкаешься при чтении на каждом втором предложении.

illian 28 сен в 23:47

Получается, что я сам пришёл к варианту с первым проходом, подача текста и предыдущего контекста. Но при переводе книг я подаю только один параграф, чтобы было проще делать соответствие оригинального параграфа и перевода, потому что пытаюсь читать сначала текст в оригинале, потом перевести мысленно, а потом уже заглянуть в перевод. Думаю, это очень редкий случай, что кто-то ещё захочет читать именно так, но делал в первую очередь под себя.

Если бы не этот подход, то можно было бы, как и описано выше, брать несколько абзацев (ограничение по длине взять из параметров) и отдавать в перевод. Возможно, стоит сделать и такой вариант тоже. И потом сравнить, на сколько это даст эффект в качестве.

Ниже обсуждалось, что есть вариант сделать глоссарий имён, возможно, сразу вида имя - пол - вид (если не человек) - краткая характеристика. Вопрос в том, сколько это займёт контекста и не запутается ли в нем модель.

При разбивке по предложениям перевод будет очень плохим, да, но и использовать его стоит только для тех моделей, которые иначе начмнают терять что-то. Все ллм модели нормально работают с несколькими параграфами текста.

KonstantinTokar 5 ноя в 13:25

Перевод нейросетью больших фрагментов имеет малозаметный косяк. В литературных текстах тем более. Нейросети ухитряются добавить в текст отсебятину, которой там не было. Причём если в рамках одного контекста пытаться поправить перевод, отсебятина усложнякется и приживается как родная. В технических текстах, разбираясь в контексте, ещё можно найти такие изменения. В художественных - почти нереально.

Я заметил такие особенности только переводя интервью (не помню с корейского или с английского), которое достаточно хорошо знал.

illian 5 ноя в 14:08

Тоже заметил. Поэтому кажется, что лучше небольшие куски текста с контекстом переводить.

fermentum 28 сен в 20:30

Забавно будет, когда имя главного героя будет меняться от одной части перевода к другой. Даже если большую книгу скормить сетке за раз - и то может возникнуть подобный эффект. Поэтому вычитка остается обязательным этапом после генеративного перевода.

illian 28 сен в 23:35

Это можно пробовать решить созданием контекста с именами и передачей его в перевод. Можно попробовать добавить.

KonstantinTokar 5 ноя в 13:27

Наверняка будет интересно посмотреть на перевод Еввангелия и комментирование его нейросетью. Там Мария встречается как минимум в трёх ипостасях. Человеческие переводчики две из них путают уже две тысячи лет.

ofthevoid 29 сен в 05:53

больше года ждал реализации подобной идеи. выражаю уважение и благодарность за труд. из предложений я думаю только нормализовать установку для юзеров. вечером поставлю себе и буду тестить. признаться очень удивлён что 8б модель имеет высший бенчмарк. я думал что для перевода нужны модели с бОльшим количеством параметров.

illian 29 сен в 06:47

Все упирается в необходимость cuda для некоторых моделей. И перевод медиа, через whisper, тоже потребует. Если оставить только перевод через лм студио, то может и получится сделать портабельно. Но надо смотреть. Попробуйте установку по первому пункту, через внешние системы для портабельной установки. Я попробовал через одну из них, была одна проблема, я описал в документации решение.

Пишите, какие будут сложности или проблемы, попробуем решить)

Ant1350 1 окт в 09:25

Спасибо за проделанную работу и за потраченные силы также для написания статьи, интересная и нужная/актуальная тема.

Про локальную версию, - также пробовал тестировать у себя около популярных 80 моделей 8-12-20-24-32 B Q8-Q4 .gguf вариантах.

классифицировал по смыслу, читабельности, метт классифицировать, по согласности" выполнять сразу то что требуется без воды и тд и то. Все вручную и поэтому очень субъективно, потом нормализации баллов от 1 до 10 - все что получал, чтобы найти оптимальные модели или универсальные.

В основном через Oobabooga, и потом через локальный api вытягивать тексты batch: ем чтобы опять же вручную читать или слушать и ставить баллы..

Много сил и терпения тебе, буду следить за твоим проектом, и морально поддерживать.

illian 1 окт в 09:25

Было бы интересно почитать результаты, хотя бы субъективные.

Ant1350 1 окт в 13:00

Да. Постараюсь сегодня-завтра. Может легче по электронной почте, устроит или как лучше. у меня в excel.

illian 2 окт в 12:38

Наверно, можно ссылку на гугл док прикрепить

Ant1350 13 окт в 14:07

Хорошо. Я сейчас как раз завелся с 3 новыми тестами. По 80 моделей. За раз. Генерирую, читаю результаты сравниваю, кто складно, кто проще и тд. Уматывает, но своими мозгами легче понять и оценить. Хотя повторяю это лишь субьективная оценка.

podvox23 6 окт в 17:38

Есть еще tencent/Hunyuan-MT-7B. Тестировали?

illian 7 окт в 00:21

Нет, можно попробовать.

illian 8 окт в 13:26

Попробовал, ситуация интересная. Мне перевод показался плохим - в каких-то местах выдуманные куски, модель путает "вы-ты", странные конструкции. Но при этом формальная оценка - 91,33, выше, чем у любой другой модели. Добавил результаты в гугл-таблицу, ссылка на которую приведена в статье.

KonstantinTokar 5 ноя в 13:28

Сейчас стало актуально переводить двуязычные тексты - китайский и английский (это issues из гитхаба). Как программа с этим справляется?

illian 5 ноя в 14:06

Тут скорее вопрос, справится ли используемая модель. Но в основном промпт сейчас строится на одном исходном языке.

Tagat 20 ноя в 15:38

Возможно, у кого-то есть идеи, как повысить качество перевода или что-то улучшить - пишите в комментариях.

Я переводчик. С появлением ИИ многое изменилось, но вот правильных инструментов для профессионального перевода всё ещё не хватает. Большинство компаний, которые предлагают перевод текста пользователям с помощью ИИ, не позволяют этим пользователям сильно вмешиваться в процесс перевода. Не говоря уже о том, чтобы загрузить ранее переведенные тексты без особых хлопот для дообучения ИИ-моделей.

С одной стороны, это правильно, потому что большинство пользователей как раз не переводчики и такие возможности им не нужны. С другой стороны, те компании, которые воплотили такую функциональность в ПО хотя бы частично, предлагают перевод как платную услугу.

Но в результате профессиональным переводчикам не хватает профессиональных инструментов перевода на основе новых технологий. Перевод, которые выдаёт ИИ, годится, но его приходится "допиливать" вручную, чтобы он отвечал корпоративным стандартам и пониманию переводчика о том, каким должен быть правильный перевод.

Мне по работе как раз необходим такой инструмент, который мог бы учитывать мои предпочтения при переводе автоматически, и как бонус обучаться на базе большого массива уже переведенных двуязычных текстов. Такая функциональность уже частично реализована в DeepL, но с этим сайтом есть проблемы по оплате за услугу в связи с санкциями. И я не знаю, может ли DeepL учиться переводить в моём стиле в зависимости от того, какие варианты я выбираю в процессе перевода на данном сайте.

Как я понял, никто мне нужный инструмент с использованием возможностей ИИ не предоставит. Поэтому приходится думать, как можно на коленке собрать что-то своё. И как вообще в принципе такое может работать. К примеру, на основе LM Studio.

Перевод с помощью ИИ - это всё ещё новая область человеческого знания. Приходится много читать, экспериментировать, и совершать ошибки. Как я понял, у меня не получится вставить базу переводов в контекст диалога с ИИ, потому что просто не хватит места. Даже если контекст будет в 120 тысяч токенов. Поэтому "копать" надо или в сторону дообучения какой-то модели на основе своих двуязычных текстов, что подразумевает огромный объём работы для того, чтобы привести данные тексты в формат, удобный для модели, или в сторону Retrieval-Augmented Generation, чтобы ИИ мог искать и находить нужные фразы и слова среди старых переводов, которые хранятся в форматах, удобных для человека.

Я полагаю, что если бы такое user-friendly ПО на основе ИИ существовало, то многие профессиональные переводчики захотели бы его приобрести. Пока же переводы с помощью ИИ больше напоминают "чёрный ящик".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий