Выбор онлайн-переводчика для web-приложения

Краткий обзор и экспресс сравнение девяти онлайн-переводчиков



Онлайн-переводчики, как и звезды, рождаются и умирают.
Относительно недавно появился ресурс itranslate4.eu. В то же время был поглощен и буквально перестал существовать многими любимый Babelfish.
Из 10 переводчиков, упомянутых в обзоре 2001 года, 3-х переводчиков уже не существует.

Для тех, у кого стоит проблема, что же выбрать, есть обзоры и посвежее, как на русском, так и на английском.
Когда мы выбирали онлайн-переводчик для нашего web-приложения, то оказалось, что данные обзоры нам не совсем подходят. Для нас, кроме адекватности и точности перевода, были важны: наличие удобного API и понятная ценовая политика (отлично, если — free). Проведя экспресс-сравнение девяти онлайн-переводчиков (говорят, над катом должна быть интрига), мы с некоторым удивлением обнаружили, что ресурсы таких гигантов, как, например, Google или Яндекс, в нашем списке оказались ближе к концу. Если вам интересно, как мы сравнивали, и что у нас получилось, добро пожаловать под кат.

Актуальный поиск привел к следующим ресурсам (в скобках указано количество языков):
Google Translate(64), Prompt(7), Яндекс(5), Trident software(59), Bing translator (Microsoft, поглотитель Babelfish — 38), WorldLingo(33), Babylon(30), Reverso(13), Systran(15), itranslate4.eu(36) — агрегатор, в который входят Trident software, Prompt, Systran и др.

1) Оценка точности перевода

Точность перевода — комплексный показатель, который может включать в себя довольно много параметров, таких как:
  • языки и направления перевода в паре;
  • грамматическая корректность перевода спряжений и склонений, наклонений и форм предложений;
  • корректность перевода фразеологических оборотов и т.д.

Полноценный анализ — это довольно трудоемкая работа, на которую у нас не оказалось ни времени, ни желания. Нужен был простой и в то же время действенный способ проверки качества перевода. При этом, уровень перевода должен был решать задачи нашего web-приложения.

Во-первых, мы сузили количество языков и направление перевода. На данный момент нас пока интересует только направление “английский — русский”.
Во-вторых, поскольку единицей текста является предложение, а наиважнейшей составной частью структуры предложения является сказуемое, то мы решили посмотреть, насколько адекватно на русский язык переводятся 26 форм английского сказуемого.

Поэтому тестовый материал включал в себя 26 простых фраз с глаголом “to ask”.
Правильность перевода определялась вручную.
  • Если фраза имела правильный перевод, то ставилась оценка в один балл;
  • Eсли форма сказуемого была переведена неправильно, то — ноль баллов;
  • Если были ошибки или неточности, но не с формой сказуемого, а скажем, с падежом дополнения, например: “Они не спросили ему?” — ставилась оценка в пол-балла. Возможно, кто-то поставил бы ноль, но нас интересовала точность перевода именно глагольной формы сказуемого (то есть части “они не спросили...”).
Результат можно увидеть в файле google spreadsheet.

Для того, чтобы полученные оценки можно было сравнивать с оценками по другим критериям, а в итоге получить некую интегральную оценку, было решено, что шкалу от 0 до 26 правильных ответов мы делим на три интервала и каждому интервалу присваиваем балл от 0 до 2:
2 балла (от 20 до 26 правильных ответов) набрали:
Prompt(24), Trident software(21), itranslate4.eu (так как он включает в себя оба этих переводчика).
1 балл (от 10 до 20 правильных ответов) набрали:
WorldLingo(17), Systran(17).
0 баллов (менее 10 правильных ответов) набрали:
Google Translate(9), Bing translator(7), Babylon(7), Reverso(7.5) и Яндекс(5).

2) Оценка API

Решили оценивать следующим образом:
2 балла (Есть открытый API): WorldLingo, Яндекс, Google Translate, Bing translator, itranslate4.eu;
1 балл (API по запросу): Babylon, Prompt;
0 баллов (Информации по API не обнаружено): Systran, Reverso, Trident software.

3) Стоимость

2 балла (Бесплатные ресурсы): Bing translator, Яндекс, itranslate4.eu (до 10 тыс. знаков);
Платные ресурсы: за основу была взята стоимость перевода 1 млн знаков.
1 балл (Платные ресурсы с открытой ценовой политикой): itranslate4.eu 7€ ( свыше 10 тыс. знаков — 1.5 балла), Prompt ~ 15$ (минимум 30 тыс р), Google — 20$;
0 баллов (По запросу) — 0 баллов.

Итоговый рейтинг

Наиболее важным и ценным критерием для нас является точность перевода, поэтому и весовой коэффициент (коэффициент важности) ему был присвоен — 2.
Общую оценку переводчика мы получили по следующей формуле:
общая оценка = Сумма(Ki * Ai)
где Ai — балл того критерия; Ki — коэффициент важности для i критерия


Для двух параметров “качество перевода” (простых грамматических конструкций) и “стоимость” можно построить такую таблицу:
Перевод Дорого Недорого Бесплатно (пока)
Хорошо Prompt itranslate4.eu
Плохо Google Translate Bing translator, Яндекс
Примечания:

1) Ресурсы Trident, Reverso, Babylon, WorldLingo и Systran не вошли в таблицу, так как стоимость использования их неизвестна.
2) Ресурс Prompt из-за минимальной суммы в 30 тыс. рублей, скорее, можно отнести к категории “хорошо, дорого”.


Итог:

Для нашего web-приложения — «Речевого Тренажера» (задача которого — отработка простых речевых конструкций на английском языке), мы выбрали два ресурса: itranslate4.eu и Bing translator.
Второй был выбран в надежде, что достоинства Babelfish, будут реализованы в Bing translator.

P.S. Пару слов о Речевом Тренажере. Он был разработан, в частности, по мотивам курса “Английский за 16 часов” Дмитрия Петрова.

P.P.S. По поводу Babelfish. Ранее мы сравнивали его переводы с переводами Systran и WorldLingo. По схожести перевода фраз сложилось такое ощущение, что ядро во всех переводчиках одно. Хотя, очень небольшие различия все — таки были. Не так давно старый добрый Babelfish перестал существовать, так как новый собственник Microsoft (изначально Babelfish принадлежал Аltavista, потом перешел к Yahoo) заменил его своим довольно сомнительным переводчиком, чем вызвал разочарование и недоумение у поклонников Babelfish (смотрим комменты от конца мая сего года к решению Microsoft).
Tags:
переводчики, онлайн-переводчик, web-разработка, английский онлайн, исследование программ, сравнение,

You can't comment this post because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author's username will be hidden by an alias.