company_banner

Сколько стоит перевести Хабр?

    Привет, Хабр! Мы с ребятами из Smartcat решили сойти с ума и попробовать перевести на английский все посты, которые были опубликованы здесь до 19 июля 2017 года, а потом оценить, сколько это будет стоить в среднем, если будет переводить Человек VS Машина. Под катом вы узнаете, что у нас из этого получилось.



    Без лишних вводных передаю слово scalywhale из Smartcat.

    8 729 613 слов


    Или 62 397 253 символов — столько текста всего на сайте habrahabr.ru.

    Самая распространённая практика среди наших клиентов (в основном это переводческие компании): сначала текст переводят, затем его проверяет редактор, а потом ещё правит корректор. Давайте оставим только этап перевода, так как скорость доставки контента прямо пропорциональна его ценности, да и на Хабре вряд ли все тексты проходят столько итераций.



    2500 слов в день — с такой скоростью может в среднем работать переводчик, а значит без выходных и отпуска он управился бы с переводом всего Хабра за 9 лет и 6 месяцев. За это время переводимые тексты потеряют актуальность, плюс к ним добавятся новые, а переводчик, скорее всего, сойдёт с ума.

    Переводит Человек


    Опытный переводчик-носитель английского берёт в среднем $0,08 (4,80 ₽*) за слово, получается $698 369 (41 874 973,45 ₽). Без учёта расходов на управление процессом.



    Попробуем побыстрее — пусть за проект возьмутся сразу несколько переводчиков, в Smartcat над одним проектом и даже документом можно работать всем вместе одновременно. Соберём команду из 50 человек, их общая производительность составит 125 тыс. слов в день. Значит, сам перевод займет 70 дней, а стоимость останется прежней. Прибавим сюда две недели на поиск подходящих нам кандидатов и тестирование, причём это самый минимум.



    SMT vs NMT


    Так, давайте попробуем разделаться с задачей ещё быстрее и использовать машинный перевод. Технология, которая, по мнению большинства пользователей интернета, нужна только что-нибудь быстренько и дословно перевести, за последнее время стала переводить так хорошо, что индустрия переводов всерьез обратила на нее внимание. Стоит только вспомнить новости в конце 2016 года, когда сначала появилась новость о том, что переводчик от Microsoft теперь работает с помощью нейронной сети, а потом вышла статья от The New York Times, в которой они рассказали о том, что Google Translate научился переводить тексты почти как человек.

    Раньше движки машинного перевода использовали алгоритмы на основе правил и статистических моделей, полученных из больших объемов двуязычных текстов, поэтому она называется Statistical Machine Translation (SMT). Новая технология использует искусственную нейронную сеть, которая самостоятельно изучает глубинные связи в языках на уровне целых предложений, а не отдельных фраз, и на их основе генерирует более точные и хорошо читаемые переводы.

    Переводит Машина


    В общем, в дело вступает машинный перевод. Для наглядности возьмём эту статью с Хабра объёмом 842 слова. Живой переводчик управится с ней примерно за три часа и попросит $67,4 (4041,38 ₽). Давайте облегчим ему работу и одновременно сэкономим. Перевод доверим машине, а редактуру — человеку.

    Такой метод перевода называется постредактированием и требует особых навыков. Постредактор должен не только владеть языком, но и понимать, как работает машинный перевод.

    Итак, подключаем машинный перевод и ищем постредактора через наш сайт Smartcat. Заливаем вордовский документ с текстом статьи и ставим галочку предварительного перевода через Microsoft Translator. На сайте можно не только переводить, но и искать фрилансеров-переводчиков со всего мира, в том числе постредакторов с родным английским.



    Услуги постредакторов стоят дешевле, чем услуги переводчиков. Мы нашли девушку-фрилансера, которая просит $0,022 (1,32 ₽) за слово. В сумме перевод текста обходится в $18,5 (1109,28 ₽). По словам самой постредакторки, она справилась с задачей быстрее, чем если бы переводила сама — за 2 часа. В качестве движка машинного перевода мы использовали платную версию Microsoft Translator, которая должна переводить лучше. Пересчитаем цифры по тарифу S1:



    В итоге перевод по такой схеме выходит на 75% выгоднее и на треть быстрее. Получается, если использовать машинный перевод и нанять 50 постредакторов, то весь Хабр можно перевести за 48 дней за $192 675 (11 553 004,94 ₽).

    Мнения


    Так ли однозначно эффективно использование машинного перевода в профессиональной сфере? Мы собрали для вас несколько мнений от наших клиентов.

    Алексей Дягтерев, руководитель платформы электронных торгов B2B-Center, говорит о том, что они стремятся привлечь на площадку иностранные компании. Раньше на английский переводились вручную лишь тексты самых значимых процедур, около 10% от всех лотов. Теперь благодаря машинному переводу международной аудитории доступны заголовки и описания всех 5000 лотов, публикуемых на площадке ежедневно. Качество перевода приемлемое — его достаточно, чтобы узнать информацию и затем уточнить подробности.

    «Благодаря машинному переводу и интеграции с системой Smartcat рутинные операции выполняются в автоматизированном режиме, а эффективность использования квалифицированных сотрудников значительно повысилась».

    Фёдор Безруков, руководитель отдела одной из крупнейших российских переводческих компаний Logrus IT, утверждает, что толк от новой технологии есть, но не всё так просто.

    «Недавно мы получили срочный заказ на перевод технического текста объёмом 900 слов с русского на английский. Подключили сразу три движка машинного перевода — статистический (SMT) и нейронный (NMT) от Microsoft и статистический от Google. А для проверки стилистики и грамматики — ещё и плагин Grammarly. Майкрософтовский NMT и гугловский SMT выдавали наиболее удачные переводы. Перевод был готов за 1 час 40 минут, процесс контролировал переводчик. Получается, мы добились производительности ≈500 слов в час».

    По словам Фёдора, разница между статистическим и нейронным машинным переводом заключается в том, что нейронные переводчики выдают гораздо более связный текст, но таят опасность: результат может оказаться хорошо читаемой бессмыслицей.

    «На данном этапе мы предпочитаем использовать выдачу нескольких движков, чтобы комбинировать преимущества каждого и нивелировать недостатки. Когда NMT-движки можно будет тренировать и обучать терминологии на лету, процесс выйдет на качественно новый уровень».

    Недавно к нам обратились коллеги из Weebly, которые решили локализовать свой продукт на 13 языков. Нам сразу стало понятно, что проект не только масштабный, но и сложный — текстовый контент сайта распределён по системе и хранится в разных форматах, плюс он постоянно меняется и обновляется. Нашлось элегантное решение: благодаря интеграции сайта Weebly через API тексты без лишних усилий обрабатывались, переводились и передавались обратно на сайт. Чтобы ускорить работу, над переводом на каждый из языков работала команда из 5—10 человек, а это добрая сотня переводчиков. Мы активно применяли машинный перевод — чтобы перевод шёл быстрее и для проверки текстов на разных языках на макете.

    «Команда Smartcat поддерживала нас на каждом этапе. Всякий раз, когда возникали вопросы или вдруг появлялись новые задачи, мы могли рассчитывать на то, что ребята помогут или поделятся опытом. Благодаря Smartcat мы смогли качественно и в сжатые сроки локализовать сайт Weebly на 13 языков, эффективно управляя процессом на каждом этапе: начиная с поиска переводчиков и распределения задач и заканчивая управлением данными и интеграцией в проект автоматизированных решений». Николас Олуча Санчес, менеджер по локализации в Weebly.

    «Проект Weebly оказался непростым, а значит интересным. В Smartcat мы развиваем переводческое сообщество и создаем умные технологии, давая возможность компаниям с легкостью масштабировать бизнес. С нами вы можете легко найти исполнителя или собрать целую команду, комбинировать движки машинного перевода, подключать глоссарии и память переводов, а если работы много — всё сделаем за вас. Мы любим сложные задачи, если у вас такие есть — пишите!» Сергей Андреев, менеджер продукта в Smartcat

    *Во всей статья конвертация $ в ₽ по курсу ЦБ РФ на 10 августа 2017 года. Данные с сайта.

    Об авторе


    Павел Доронин — любит локализацию, переводы и всё, что с этим связано, и работает над созданием лучших инструментов для этого. А ещё любит электронную музыку и синтезаторы (после работы). #i18n #l10n #xl8n
    Microsoft
    Microsoft — мировой лидер в области ПО и ИТ-услуг

    Similar posts

    Comments 55

      +9

      Вот всё отлично: посчитали слова, буквы, время, деньги. Словом, все что поддается исчислению… где и как оценить качество перевода? Стоит оно того? Мнения под катом? Окееей, Гугл.

        +14
        Если «Мы… решили сойти с ума и ...» — это русский вариант «We decided to go crazy and ...», то уже как бы понятно.
          0
          А какой вариант вам кажется корректнее?
            +17

            Упороться

          +4
          image
            +14

            Хорошо, что не Language in the father in law :)

              +3
              Или не «tongue in the father in law»!
              +1
              Можно подумать люди таких ошибок не делают. «Meet on swords» (sic!) как перевод названия блюда «мясо на шпажках» мы в ресторанном меню наблюдали лет 10 назад — тогда о машинном переводе никто не задумывался.
                0
                prompt уже тогда был. Им активно делали перевод игр и описание к ним.
                  0
                  Prompt бы никогда не перевёл «мясо» как «meet» — это чисто человеческая ошибка.
                  0
                  А вы различаете профессиональных переводчиков и… официантов ресторана… 10 лет назад? Тогда уже хорошо, что Перевели текст, а не транслитом написали типа «мит он свордс» )
              +9
              Надо учитывать тот факт, что некоторый процент статей составляют переводы англоязычных статей.
                +2
                Около 12,5% было помечено тегом «Перевод» (проводили анализ в апреле)
                Интересно посмотреть на текст, который переведён из перевода и сделать сверку.
                  +8
                  Полагаю что-то типа того:
                  Интересно посмотреть на текст, который переведён из перевода и сделать сверку.

                  It's interesting to look at the text that is translated from the translation and make a reconciliation.

                  Интересно посмотреть на текст, который переводится с переводом и выносить примирение.
                    0
                    Спасибо.
                      0
                      Это, кстати, довольно распространённый способ проверить качество, а также выявить различные узкие места в исходном тексте и переводе.
                      0
                      Отличная идея. Поговорим со Smartcat, может быть сделаем UPD статьи.
                      +5
                      Согласен, как оценить качество перевода?
                        0
                        Это очень интересный вопрос. Самый, наверное, популярный способ — сделать выборку текстов (скажем, 1% от объёма), перевести её с помощью человека, а потом результат сравнить с постредактированным машинным переводом. Если допустить, что человеческий перевод является эталонным, то можно сравнить отличие эталонного текста от постредактированного МТ и сделать вывод о качестве.
                          0
                          Да пожалуй я с вами соглашусь
                      • UFO just landed and posted this here
                          +1
                          Ну удачи вам в переводе нужных вам статей с китайского языка :)
                            0
                            Статьи (как минимум технические) с китайского языка переводятся в разы проще чем с английского. Проблема только в том чтобы знать язык, но это уже не о переводе :)
                              0
                              Я имел ввиду, что например среднестатистическому американцу не будет дела до статей на Хабре, ТК он не знает русский язык, а значит, он никак не сможет узнать, что здесь есть потрясающие статьи, как раз те, что ему надо. Это был ответ Г-ну anfield343, поэтому «переведет сам» не работает.
                              • UFO just landed and posted this here
                            0

                            Старые уже устоялись а новые ещё могут редактироваться. Я после публикации часто дополняю и правлю статьи да и корректоры помогают. Ну и потом старые статьи уже получили свою оценку от общества.

                            +5
                            Иногда я не понимаю системников на русском, а девушка фрилансер переводит технические статьи?
                            Для топ 10% статей точно нужен технический переводчик профессионал, пускай и для пост редакции.
                              +6

                              А как же комментарии?
                              В них ценного не меньше, а иногда и больше чем в статье.

                                0
                                Отличная идея, кстати. Тогда встаёт вопрос, стоит ли переводить все комментарии, или, например, только рейтинговые.
                                0
                                Все уже украдено переведено до вас (https://kukuruku.co/).
                                  0

                                  А где там ссылки на оригинал?

                                  +4
                                  «Решили перевести на английский» — а зачем вы нам об этом рассказываете, рассказывайте англоязычным. Я бы вас больше ценил, если бы английские (а лучше китайские/испанские) статьи на русский переводили. Хоть у меня английский и беглый, а на родном языке всё равно читать быстрее и приятнее.
                                    0
                                    Статья не о результате, а о процессе. В теории. На практике — просто реклама.

                                    Хабр русскоязычный. С английского или китайского на русский его не перевести. Разве что туда, а потом обратно :)
                                      0
                                      Мы переводим. :)
                                      0
                                      «Как дешевле всего пересчитать все песчинки на пляже?». Никак. Если расходам не противопоставлен больший доход, то это убыточное дело. Независимо от того насколько малы расходы. А про средний доход от одной статьи ничего не было сказано.
                                      Дональд Кнут напоминает: «Преждевременная оптимизация — корень всех зол»
                                        0

                                        Перевод переводу рознь. Иногда техническая документация в оригинале более понятна, чем перевод. + от ошибок самих редакторов никто не застрахован, они далеко не программисты. Логичнее было бы убрать статьи, которые переводили и сделать выборку по важным (популярным) статьям, которые и переводить. Определенный %, который никто не читает есть и здесь.

                                          +1
                                          Кстати, есть ли англоязычные аналоги Хабр? Раз у нас тема зашла об этом.
                                            0
                                            Есть :) Но не такие классные.
                                              +1
                                              Спасибо, это я видела. Но, беря тот же Reddit, там другая идея постинга. :) Мне кажется даже Medium ближе сейчас.
                                            +2
                                            Попробую ответить сразу всем комментаторам выше.
                                            Стоит, конечно, оговориться, что на самом деле Хабр мы переводить не собирались, а использовали его для расчётов. Скажем так, чтобы местные жители понимали масштаб контента, о котором мы говорим. Нашей целью было показать прикладное применение машинного перевода в промышленных масштабах.
                                            Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок. Переводить описания товаров вручную традиционным способом долго и дорого. Полагаться только на машинный перевод — опасно (помните все эти смешные описания с AliExpress? их, кстати, всё меньше). Сценарий машинный перевод+постредактирование в этом случае — хорошее соотношение по срокам/стоимости.
                                            E-commerce — самый очевидный пример. Есть ещё различные отзывы на сервисах бронирования, например.

                                            Пример другого рода — трейдерские сводки. В международных компаниях, где те или иные действия обусловлены событиями в разных точках мира, очень важно получать новостные сводки как можно быстрее (но при этом не «сырой» результат машинного движка). Тут машинный перевод + постредактирование позволяют перевести новость быстро и понятно, успев до того, как она протухнет.

                                            Мой любимый пример — пачки юридических документов, которые обязательно нужно переводить на другие языки при международных процессах. Задержки в таких случаях могут стоить больших денег.

                                            Иными словами, Хабр мы переводить не будем, мы лишь на примере Хабра демонстрируем экономическую целесообразность работы с машинным переводом на больших объёмах.
                                              –1
                                              Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок.

                                              Панель от Гугла с этим прекрасно справляется и не нужно хранить переводы у себя.
                                                +2
                                                Google Toolbar?
                                                Но ведь тут у вас вообще нет контроля за качеством того, что там потенциальные покупатели напереводили.
                                                  –1
                                                  Если под выходом на рынок имеется в виду доставка в новые регионы, то этого может хватить.
                                                +1
                                                Кажется вашей целью являлось — пропиарить свой продукт под видом псевдоинтересных расчетов для местного сообщества. Много упоминаний кампании и 0 выводов, а то что машина переведет быстрее и дешевле людей, было известно еще ежу.
                                                  0
                                                  Ежу не было известно, насколько быстрее и насколько дешевле обойдётся машинный перевод. Мы же привели конкретные цифры, которые могут быть приблизительным ориентиром для бизнеса.
                                                    0
                                                    Все верно, ежу это и не нужно, ваша ЦА те у кого есть деньги и бизнес, а не ежи. Понимание фундаментальных принципов освобождает от знания множества фактов.
                                                +3
                                                image
                                                Смоленск. Гостиница Аврора. 2017 год.
                                                  +4
                                                  ну тогда уж
                                                  Please remove the number
                                                  0

                                                  а что с комментариями? в некоторых статьях есть такие, что полезней самой статьи

                                                    0
                                                    комментарии, пожалуй, потребуют препроцессинга, чтобы движок МТ их понял. Всё-таки, когда люди пишут комментарии, они не так себя дисциплинируют как при написании статей. Конечно, на Хабре качество текста в комментариях повыше, чем, скажем, в сообществе MDK, но, думаю, препроцессинг понадобится.
                                                    Такой подход использует отдел машинного перевода eBay. Им приходится переводить большое количество контента, созданного пользователями (описания товаров), который совсем не заточен на перевод. Ребята из eBay создали (и ежедневно дополняют) набор правил, который изменяет исходный текст перед отправкой в движок машинного перевода так, чтобы на выходе был более качественный перевод: исправление опечаток, расшифровка аббревиатур, исправление сленговых оборотов и т.д.
                                                    +1
                                                    Мне кажется, эта статья должна быть в хабе «Я пиарюсь». :)
                                                      0
                                                      Менее девяти миллионов слов на всём Хабре? Я, видимо, как-то не так понял. Как подсчитывалась эта цифра? Как-то маловато по-моему, особенно если сравнить с вот этой статьёй.
                                                        0
                                                        Сначала мы попробовали использовать Easyling (обзор этого сервиса был на Хабре), но он при подсчёте Хабра зависает и перестаёт считать.
                                                        Менее 9 миллионов слов мы насчитали с помощью http://www.sitewordcount.com/#/ (который работает на движке Langprism).

                                                        Наши коллеги из компании GetLoc после выхода этого поста решили проверить наш подсчёт с помощью своего движка, подсчёт идёт уже пятый день, цифра уже превысила нашу — почти 13 миллионов слов. Посмотрим, когда досчитается.
                                                          +1
                                                          Интересный результат прислали из GetLoc: спустя более 10 дней подсчёта Хабра получилось 41 920 106 слов (237 379 782 символа). И это уже с учетом повторяемости, т.е. весь объем сравнился друг с другом. Все сегменты уникальные.
                                                          Похоже, что это единственный кроулер, который не сошёл с дистанции и посчитал весь объём Хабра с комментариями.
                                                          +2
                                                          Когда-то у Microsoft все статьи были переведены на русский, видимо, их переводчиком. Но переводчик применялся к техническому материалу ну, по сути, вслепую. В результате были постоянно такие перлы как default char unsigned = «символ по умолчанию не подписан».

                                                          Only users with full accounts can post comments. Log in, please.