Я видел много статей и восхищенных отзывов, в которых переводчик ChatGPT не уступает по качеству DeepL и Google, а иногда их даже превосходит. Как основателю компании Lingvanex, которая уже 6 лет занимается разработкой собственных решений по переводу, мне стало интересно насколько все это правда, а также насколько наше решение сопоставимо с ChatGPT. Нужно ли мне бояться такого сильного конкурента?
Для сравнения качества перевода мы подготовили тестовые датасеты на семи языковых парах:
Английский‑испанский
Английский‑немецкий
Английский‑русский
Английский‑французский
Английский‑итальянский
Английский‑португальский
Английский‑финский
Каждый тестовый датасет включает в себя в районе 2500 строк и охватывает предложения разной тематики, длины, стилистики и форматирования, чтобы исключить подбор текста под конкретный переводчик.
Совсем недавно ChatGPT предоставил API версии 4 в ограниченный доступ. На текущий момент доступ к нему имеют только ранее созданные аккаунты, которые уже платили за версию 3.5. Судя по отзывам, новая версия сильно продвинулась в плане качества относительно версии 3.5. И это мы тоже проверим!
Для тестирования возьмем 2 метрики BLEU и COMET:
BLEU — общепризнанный стандарт для тестирования качества перевода. По умолчанию будем использовать версию SacreBleu. Эта версия используется в конференции по машинному переводу WMT и различных международных соревнованиях. В этой метрике сравнение перевода идет по количеству n‑gram (комбинаций слов), которые идут друг за другом. Цель метрики в том, чтобы найти максимально совпадающие комбинации между переводом, сделанным человеком и машиной. Сравнение начинается с кластеров в четыре слова. Если таковых не обнаруживается, но идет поиск трех n‑gram. При дальнейшем отсутствии совпадений можно дойти до одного n‑gram. Очки начисляются за каждые последовательности слов (токенов), которые нашла программа. Минус метрики в том, что она не учитывает синонимы и если в переводе мысль передана верно, но другими словами, то она покажет 0.
COMET — метрика, разработанная для решения проблемы сравнения синонимов, с которыми не справляются метрики, основанные на символьном сравнении двух строк. Если результатом перевода будет похожая по смыслу фраза, но описанная другими словами, то метрика покажет похожие результаты. Стоить отметить, что ее результат также будет зависеть от разнообразия языкового корпуса, на котором будет построен классификатор для сравнения. Данная метрика широко используется, как альтернатива метрике BLEU.
Промпты, которые мы использования для перевода через ChatGPT:
You are TranslateGPT. You translate user messages from English to Italian (Finnish / French / German / Portuguese / Russian / Spanish). You are the most accurate English to X translator in the world.
Ниже показаны графики с результатами тестов:
Перевод англо-финский
Мы взяли эту пару как пример языка, который имеет сложную грамматику. На графике видно, что по обоим метрикам наше решение превосходит обе версии ChatGPT
Перевод англо-французкий
На этой паре языков заметно улучшение качество перевода ChatGPT 4 относительно версии 3.5. По метрике COMET ChatGPT4 уже немного превосходит Lingvanex.
Перевод англо-немецкий
При переводе не немецкий язык ситуация такая же, как с французским. Но отставание по метрике COMET у Lingvanex — минимальны.
Сведем все отличия в таблицу. Красным шрифтом покажем где ChatGPT уступает Lingvanex. Зеленым шрифтом пометим, где превосходит. Данные актуальны на 31 июля 2023 года.
Цена перевода Lingvanex рассчитывалась исходя из стоимости месячной аренды GPU сервера начального уровня (150 дол) + цена перевода за языковую модель Lingvanex в месяц (от 100 дол) и количества символов, которых можно перевести за месяц на этой конфигурации.
Выводы
По результатам теста видно, что если ChatGPT 3.5 в большинстве случаев уступает Lingvanex в качестве перевода, то ChatGPT4 нередко достигает по метрике COMET.
Стоит учитывать, что на данный момент перевод больших объемов текста с помощью ChatGPT4 является очень дорогим. Для того чтобы проделать тесты для этой статьи и перевести около 20 тысяч строк с помощью ChatGPT4, было потрачено 45 долларов. Расчет цены перевода может сбивать с толку, поскольку заранее сложно рассчитать в токенах, сколько вы заплатите за перевод.
На текущий момент скорость перевода через ChatGPT 4 нестабильна, скорей всего она зависит от текущей загруженности их серверов. Между запросами нам приходилось делать перерыв 3–4 секунды. В целом, на тестовом датасете скорость перевода составила около 8 слов в секунду. Наше решение позволяет переводить несколько тысяч слов в секунду даже на слабых серверах. К тому же было замечено цензурирование перевода: если в строке присутствует сквернословие или мат, ChatGPT не будет переводить все предложение.
Таким образом, ChatGPT лучше использовать для стилистического перевода небольших объемов текста без особых требований по безопасности. Причем стили и тематики можно менять на лету. С помощью подбора промптов можно добиться улучшения качества под конкретную задачу, но для этого придется перебрать достаточное их количество.
Решения по переводу Lingvanex лучше использовать там, где нужны большие объемы перевода по низкой цене, безопасность, скорость и стабильность.
Я допускаю что на каких‑то парах языков, разница в качестве перевода может быть другой, но тестировать все возможные пары долго и дорого.
В целом, решения от ChatGPT и Lingvanex предназначены для разных целей и их надо выбирать в зависимости от задачи.
Если вам подходит решение нашей компании, то мы предоставляем бесплатную двухнедельную пробную версию нашего сервера, мобильного SDK и Cloud API. Наша компания также предлагает решения по транскрипции речи (аудио в текст).
Если хотите протестировать наше решение, пишите на info@lingvanex.com