Выбор онлайн-переводчика для web-приложения

Краткий обзор и экспресс сравнение девяти онлайн-переводчиков



Онлайн-переводчики, как и звезды, рождаются и умирают.
Относительно недавно появился ресурс itranslate4.eu. В то же время был поглощен и буквально перестал существовать многими любимый Babelfish.
Из 10 переводчиков, упомянутых в обзоре 2001 года, 3-х переводчиков уже не существует.

Для тех, у кого стоит проблема, что же выбрать, есть обзоры и посвежее, как на русском, так и на английском.
Когда мы выбирали онлайн-переводчик для нашего web-приложения, то оказалось, что данные обзоры нам не совсем подходят. Для нас, кроме адекватности и точности перевода, были важны: наличие удобного API и понятная ценовая политика (отлично, если — free). Проведя экспресс-сравнение девяти онлайн-переводчиков (говорят, над катом должна быть интрига), мы с некоторым удивлением обнаружили, что ресурсы таких гигантов, как, например, Google или Яндекс, в нашем списке оказались ближе к концу. Если вам интересно, как мы сравнивали, и что у нас получилось, добро пожаловать под кат.

Актуальный поиск привел к следующим ресурсам (в скобках указано количество языков):
Google Translate(64), Prompt(7), Яндекс(5), Trident software(59), Bing translator (Microsoft, поглотитель Babelfish — 38), WorldLingo(33), Babylon(30), Reverso(13), Systran(15), itranslate4.eu(36) — агрегатор, в который входят Trident software, Prompt, Systran и др.

1) Оценка точности перевода

Точность перевода — комплексный показатель, который может включать в себя довольно много параметров, таких как:
  • языки и направления перевода в паре;
  • грамматическая корректность перевода спряжений и склонений, наклонений и форм предложений;
  • корректность перевода фразеологических оборотов и т.д.

Полноценный анализ — это довольно трудоемкая работа, на которую у нас не оказалось ни времени, ни желания. Нужен был простой и в то же время действенный способ проверки качества перевода. При этом, уровень перевода должен был решать задачи нашего web-приложения.

Во-первых, мы сузили количество языков и направление перевода. На данный момент нас пока интересует только направление “английский — русский”.
Во-вторых, поскольку единицей текста является предложение, а наиважнейшей составной частью структуры предложения является сказуемое, то мы решили посмотреть, насколько адекватно на русский язык переводятся 26 форм английского сказуемого.

Поэтому тестовый материал включал в себя 26 простых фраз с глаголом “to ask”.
Правильность перевода определялась вручную.
  • Если фраза имела правильный перевод, то ставилась оценка в один балл;
  • Eсли форма сказуемого была переведена неправильно, то — ноль баллов;
  • Если были ошибки или неточности, но не с формой сказуемого, а скажем, с падежом дополнения, например: “Они не спросили ему?” — ставилась оценка в пол-балла. Возможно, кто-то поставил бы ноль, но нас интересовала точность перевода именно глагольной формы сказуемого (то есть части “они не спросили...”).
Результат можно увидеть в файле google spreadsheet.

Для того, чтобы полученные оценки можно было сравнивать с оценками по другим критериям, а в итоге получить некую интегральную оценку, было решено, что шкалу от 0 до 26 правильных ответов мы делим на три интервала и каждому интервалу присваиваем балл от 0 до 2:
2 балла (от 20 до 26 правильных ответов) набрали:
Prompt(24), Trident software(21), itranslate4.eu (так как он включает в себя оба этих переводчика).
1 балл (от 10 до 20 правильных ответов) набрали:
WorldLingo(17), Systran(17).
0 баллов (менее 10 правильных ответов) набрали:
Google Translate(9), Bing translator(7), Babylon(7), Reverso(7.5) и Яндекс(5).

2) Оценка API

Решили оценивать следующим образом:
2 балла (Есть открытый API): WorldLingo, Яндекс, Google Translate, Bing translator, itranslate4.eu;
1 балл (API по запросу): Babylon, Prompt;
0 баллов (Информации по API не обнаружено): Systran, Reverso, Trident software.

3) Стоимость

2 балла (Бесплатные ресурсы): Bing translator, Яндекс, itranslate4.eu (до 10 тыс. знаков);
Платные ресурсы: за основу была взята стоимость перевода 1 млн знаков.
1 балл (Платные ресурсы с открытой ценовой политикой): itranslate4.eu 7€ ( свыше 10 тыс. знаков — 1.5 балла), Prompt ~ 15$ (минимум 30 тыс р), Google — 20$;
0 баллов (По запросу) — 0 баллов.

Итоговый рейтинг

Наиболее важным и ценным критерием для нас является точность перевода, поэтому и весовой коэффициент (коэффициент важности) ему был присвоен — 2.
Общую оценку переводчика мы получили по следующей формуле:
общая оценка = Сумма(Ki * Ai)
где Ai — балл того критерия; Ki — коэффициент важности для i критерия


Для двух параметров “качество перевода” (простых грамматических конструкций) и “стоимость” можно построить такую таблицу:
Перевод Дорого Недорого Бесплатно (пока)
Хорошо Prompt itranslate4.eu
Плохо Google Translate Bing translator, Яндекс
Примечания:

1) Ресурсы Trident, Reverso, Babylon, WorldLingo и Systran не вошли в таблицу, так как стоимость использования их неизвестна.
2) Ресурс Prompt из-за минимальной суммы в 30 тыс. рублей, скорее, можно отнести к категории “хорошо, дорого”.


Итог:

Для нашего web-приложения — «Речевого Тренажера» (задача которого — отработка простых речевых конструкций на английском языке), мы выбрали два ресурса: itranslate4.eu и Bing translator.
Второй был выбран в надежде, что достоинства Babelfish, будут реализованы в Bing translator.

P.S. Пару слов о Речевом Тренажере. Он был разработан, в частности, по мотивам курса “Английский за 16 часов” Дмитрия Петрова.

P.P.S. По поводу Babelfish. Ранее мы сравнивали его переводы с переводами Systran и WorldLingo. По схожести перевода фраз сложилось такое ощущение, что ядро во всех переводчиках одно. Хотя, очень небольшие различия все — таки были. Не так давно старый добрый Babelfish перестал существовать, так как новый собственник Microsoft (изначально Babelfish принадлежал Аltavista, потом перешел к Yahoo) заменил его своим довольно сомнительным переводчиком, чем вызвал разочарование и недоумение у поклонников Babelfish (смотрим комменты от конца мая сего года к решению Microsoft).
Теги:
переводчики, онлайн-переводчик, web-разработка, английский онлайн, исследование программ, сравнение,

Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.