Comments 13
Мне показалось, что ChatGPT обнулила всех трех уже в 4-й версии, тем более в сегодняшней.
Развернул свою мысль в статье.
Похоже что так. Сравнивал перевод с турецкого - Chatgpt уделывает всех
Похоже что так. Сравнивал перевод с турецкого - Chatgpt уделывает всех
Полный список материалов, которые не следует переводить с помощью МП самостоятельно: (...) научные статьи, ...
Отвечу, как
монолингв
Ну если фортран в расчет не берем, хотя по идее он тоже вроде бы иностранный ;-)
Мне иногда надо переводить фрагменты своих статей на английский при отправке текста в журнал. Я это делаю в онлайн-переводчике. А для проверки качества перевода беру полученный фрагмент и делаю обратный перевод в другом онлайн-переводчике. Потом сравниваю текст с исходным (русским). Если что-то не так, то редактирую исходный русский текст, и повторяю до сходимости.
Так вот, по моим впечатлениям, качество перевода научного текста в Я и G резко выросло в последние несколько лет. Если писать короткие (русские) фразы без сложного синтаксиса, то обратный перевод часто совпадает вообще дословно. А главное, раньше с терминами и особенно аббревиатурами была просто катастрофа - вероятность правильного перевода стремилась к нулю. Сейчас стало на два порядка лучше: в моем случае шанс получить правильный перевод уже сильно больше 0.5 для узкоспециальных терминов и приближается к 0.9++ для более общеизвестных (и продолжает расти). Возможно, некоторые модели дообучались как раз на научных статьях? Сейчас есть много переводных журналов, где русская статья выходит в английском переводе. Просто идеальный материал для дообучения! Ну и второй ключевой момент - модели стали учитывать контекст. Для перевода терминов это крайне важно, т.к. среди них есть много многозначных слов, и без владения контекстом даже профессиональный переводчик не всегда справится.
Короче, насчет научных статей я с Вами не соглашусь: по крайней мере в некоторых областях знаний они переводятся очень даже неплохо. На два-три порядка лучше, чем это может делать человек со школьным английским и личной шпаргалкой по специализированной терминологии.
Ну и еще один вопрос напоследок. Мне кажется, что метод с обратным переводом способен резко упростить поиск ошибок в переводах и составление метрик качества переводов. Ведь сравнить два текста на одном языке гораздо проще, чем на разных языках (как человеку, так и машине). Да, конечно, при этом не ясно, на каком именно этапе произошла ошибка: "туда" или "обратно". Но если ошибок не очень много (вероятность ошибки ближе к нулю, чем к единице), и если у нас есть несколько автопереводчиков (минимум надо три штуки), то прогнав эти "туда-обратно" в разных комбинациях, мы легко выявим лучшего и худшего из трех. Даже интересно, почему в статье об этом методе проверки нет ни слова. Ведь он доступен не только профессионалам, но и самому бездарному юзеру вроде меня. Было бы интересно узнать о его недостатках с точки зрения специалиста.
Спасибо за такой подробный коммент!
Да, качество переводчиков и правда сильно возросло за последние несколько лет, мощный прорыв сделал DeepL, яндекс и гугл, по ощущениям, не сильно отстают (хотя исследования от intento говорят об обратном). Особенно если мы говорим о переводе простых предложений, а не сложных с разными видами связи.Ещё появление нейронки сильно улучшило понимание контекста, что радует и дает надежды на то, что скоро МП будет близок к идеалу.
Возможно, некоторые модели дообучались как раз на научных статьях?
Тут, скорее, модели дообучаются на разных типах текстов, не только на статьях.
Мы ничего не имеем против перевода статей через МП, просто тут нужно заранее оценивать все шансы и понимать, насколько сложен текст и сможет ли переводчик его перевести так, чтобы за результат потом не было стыдно. И отталкиваться от области знаний, как вы подметили. Если там доступная терминология, то подходит, но желательна вычитка. Думаю, нужно было развернуть этот момент подробнее в статье, чтобы не было недопониманий.
Ну и еще один вопрос напоследок. Мне кажется, что метод с обратным переводом способен резко упростить поиск ошибок в переводах и составление метрик качества переводов.
У нас изначально не было планов раскрывать эту тему и писать про методы проверки. Если ориентироваться на опыт именно в рамках нашей компании, то у нас были заказы, где основным требованием была проверка текста обратным переводом. Но это, скорее, исключение, чем постоянное явление) Это редко востребовано в медицинском переводе. Но не применим в текстах, в которых нужна транскреация. Наши переводчики, имеющие опыт с таким методом обратного перевода, утверждают, что иногда при обратном переводе ошибка никуда не исчезает. Кроме того, её так можно и вовсе не заметить. Да, он может уберечь от каких-то явно заметных ошибок и сгладить их. Но не во всех случаях. Семантические, то есть смысловые, ошибки - самые критичные и иногда такой проверкой можно ввести себя в заблуждение.


Один из примеров обратного перевода. Здесь ошибка у движка: брак переведен не как дефект продукции, а как союз. Ошибка никуда не делась, смысл перевода на английский остается некорректным
И отдельным сообщением задам вопрос, не связанный с первым. Существует ли сейчас какой-то простой и дешевый (в идеале - бесплатный) способ перевести на английский готовый chm-файл размером около 2Мб (без претензий к качеству перевода, но обязательно с сохранением внутренних гиперссылок)?
Конкретно надо перевести вот такой chm-файл
chm-файл на Я-диске. А вот тут он же в zip-архиве
Исходники этого chm-файла доступны (я - автор ;-), однако я не могу перевести их в более новую версию Word, так как при этом неминуемо портятся внутренние гиперссылки. А этих гиперссылок там хренова туча (много-много тысяч). Поэтому я веду проект в doc-формате и пару раз в месяц (после каждого обновления справки) заново компилирую chm из формата doc, благо когда-то этому научился.
Соответственно, мне нет смысла переводить на английский исходный doc-файл по фрагментам: я не смогу это делать сколько-нибудь регулярно. И вносить изменения в перевод только там, где что-то поправил, я тоже не смогу, ведь любая правка в одном месте обычно влечет необходимость изменения многих связанных топиков. В общем, спасти может только такой автоперевод, который обрабатывает файл целиком и сохраняет при этом все гиперссылки... И работать он должен либо с форматом DOC, либо же с CHM...
Бесплатных решений точно подсказать не сможем. Иногда приходят задачи на перевод файлов такого формата, но очень редко, таких кейсов не так много. Нашему инженеру по локализации приходится проводить много манипуляций. Тестировать разные сценарии и CAT-системы, смотреть, справится ли она с таким форматом.
Касаемо стоимости через агентства это сделать дешево тоже не получится. В стоимость будет входить как настройка, так и перевод.
К сожалению, ни у одного МП не получилось правильно перевести предложение. Смысл исходного текста: модный дом выпустил коллекцию одежды и аксессуаров (группу) для летнего отдыха. Была проигнорирована логика построения предложений, скопирована с оригинала.
Да тут и у человека ничего не получится, ведь в приведённом фрагменте оригинала вообще нет никакого даже намёка на какой-то там «модный дом»! Если МП был скормлен только текст оригинала, то вполне закономерно, что и перевод он вёл лишь основываясь на тексте оригинала. Я бы скорее забеспокоился, если бы в переводе внезапно из ниоткуда появился бы этот модный дом, ибо это значило бы, что модель чего-то там сочиняет вместо перевода.
а вот запрос только лишь на МП совсем не востребован.
Скорее, это говорит о том, что нет никакого смысла обращаться в агентство переводов чисто за машинным переводом, да ещё и платить за это какие-то деньги, когда тот же самый машинный перевод доступен абсолютно бесплатно на deepl.com и аналогах.
Да, вы правильно заметили это упущение. Чтобы не было недопонимания, нам нужно было указать, что предложение переводилось не отдельно, а в контексте) Это полностью меняет смысл. Информация про модный дом была в предложениях до этого, в наш пример попала только та часть целого текста, которую переводчик не смог перевести правильно, учитывая всё, о чем говорилось.
Если бы модный дом внезапно появился из ниоткуда, мы бы забеспокоились не меньше)))
NBMT. Машинный перевод на основе нейронных сетей. Как работает этот механизм? Нейронные сети имитируют поведение человеческого мозга при обработке данных.
Чушня и байда. Кто вам такое напел?
Мало того, что автор копирует чушню и байду из других источников, так он еще и не чекает эту чушню.
Например, нет термина NBMT, а есть термин NMT - Neural Machine Translation.
Нет, нейросети не имитируют поведение человеческого мозга при обработке даных. Для того, чтобы это понять, достаточно ознакомиться со специальной литературой.
Нейросети в принципе не могут имтировать работу мозга, потому что никто не знает, как он работает. Точнее, могут описать на уровне "нажал кнопку смартфона - на экране появилась анимация". Ничего глубже этого пока нет.
Более того, сами нынешние нейросести (AAN - artificial neural networks) есть продукт разработки одной абстрактной идеи о том, как мог бы быть устроен человеческий мозг, и идее этой - 200 лет в обед. Более того, все дальнейшие разработки этой идеи были равно такого же уровня - только модели, которые симулировали работу мозга в соответствии с научным уровнем эпохи. И в итоге дожили до уровня пиздабола-задушевника, который может поддержать диалог на любую тему, ничего в ей не соображая =)
Что, как вы (надеюсь) понимаете, говорит о качестве исходной математической модели.
Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL