Комментарии 55
Вот всё отлично: посчитали слова, буквы, время, деньги. Словом, все что поддается исчислению… где и как оценить качество перевода? Стоит оно того? Мнения под катом? Окееей, Гугл.
Хорошо, что не Language in the father in law :)
Интересно посмотреть на текст, который переведён из перевода и сделать сверку.
It's interesting to look at the text that is translated from the translation and make a reconciliation.
Интересно посмотреть на текст, который переводится с переводом и выносить примирение.
Старые уже устоялись а новые ещё могут редактироваться. Я после публикации часто дополняю и правлю статьи да и корректоры помогают. Ну и потом старые статьи уже получили свою оценку от общества.
Для топ 10% статей точно нужен технический переводчик профессионал, пускай и для пост редакции.
А как же комментарии?
В них ценного не меньше, а иногда и больше чем в статье.
Дональд Кнут напоминает: «Преждевременная оптимизация — корень всех зол»
Перевод переводу рознь. Иногда техническая документация в оригинале более понятна, чем перевод. + от ошибок самих редакторов никто не застрахован, они далеко не программисты. Логичнее было бы убрать статьи, которые переводили и сделать выборку по важным (популярным) статьям, которые и переводить. Определенный %, который никто не читает есть и здесь.
Стоит, конечно, оговориться, что на самом деле Хабр мы переводить не собирались, а использовали его для расчётов. Скажем так, чтобы местные жители понимали масштаб контента, о котором мы говорим. Нашей целью было показать прикладное применение машинного перевода в промышленных масштабах.
Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок. Переводить описания товаров вручную традиционным способом долго и дорого. Полагаться только на машинный перевод — опасно (помните все эти смешные описания с AliExpress? их, кстати, всё меньше). Сценарий машинный перевод+постредактирование в этом случае — хорошее соотношение по срокам/стоимости.
E-commerce — самый очевидный пример. Есть ещё различные отзывы на сервисах бронирования, например.
Пример другого рода — трейдерские сводки. В международных компаниях, где те или иные действия обусловлены событиями в разных точках мира, очень важно получать новостные сводки как можно быстрее (но при этом не «сырой» результат машинного движка). Тут машинный перевод + постредактирование позволяют перевести новость быстро и понятно, успев до того, как она протухнет.
Мой любимый пример — пачки юридических документов, которые обязательно нужно переводить на другие языки при международных процессах. Задержки в таких случаях могут стоить больших денег.
Иными словами, Хабр мы переводить не будем, мы лишь на примере Хабра демонстрируем экономическую целесообразность работы с машинным переводом на больших объёмах.
Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок.
Панель от Гугла с этим прекрасно справляется и не нужно хранить переводы у себя.
Смоленск. Гостиница Аврора. 2017 год.
а что с комментариями? в некоторых статьях есть такие, что полезней самой статьи
Такой подход использует отдел машинного перевода eBay. Им приходится переводить большое количество контента, созданного пользователями (описания товаров), который совсем не заточен на перевод. Ребята из eBay создали (и ежедневно дополняют) набор правил, который изменяет исходный текст перед отправкой в движок машинного перевода так, чтобы на выходе был более качественный перевод: исправление опечаток, расшифровка аббревиатур, исправление сленговых оборотов и т.д.
Менее 9 миллионов слов мы насчитали с помощью http://www.sitewordcount.com/#/ (который работает на движке Langprism).
Наши коллеги из компании GetLoc после выхода этого поста решили проверить наш подсчёт с помощью своего движка, подсчёт идёт уже пятый день, цифра уже превысила нашу — почти 13 миллионов слов. Посмотрим, когда досчитается.
Похоже, что это единственный кроулер, который не сошёл с дистанции и посчитал весь объём Хабра с комментариями.
Сколько стоит перевести Хабр?