Pull to refresh

Comments 55

Вот всё отлично: посчитали слова, буквы, время, деньги. Словом, все что поддается исчислению… где и как оценить качество перевода? Стоит оно того? Мнения под катом? Окееей, Гугл.

Если «Мы… решили сойти с ума и ...» — это русский вариант «We decided to go crazy and ...», то уже как бы понятно.
А какой вариант вам кажется корректнее?
UFO just landed and posted this here

Хорошо, что не Language in the father in law :)

Или не «tongue in the father in law»!
Можно подумать люди таких ошибок не делают. «Meet on swords» (sic!) как перевод названия блюда «мясо на шпажках» мы в ресторанном меню наблюдали лет 10 назад — тогда о машинном переводе никто не задумывался.
prompt уже тогда был. Им активно делали перевод игр и описание к ним.
Prompt бы никогда не перевёл «мясо» как «meet» — это чисто человеческая ошибка.
А вы различаете профессиональных переводчиков и… официантов ресторана… 10 лет назад? Тогда уже хорошо, что Перевели текст, а не транслитом написали типа «мит он свордс» )
Надо учитывать тот факт, что некоторый процент статей составляют переводы англоязычных статей.
Около 12,5% было помечено тегом «Перевод» (проводили анализ в апреле)
Интересно посмотреть на текст, который переведён из перевода и сделать сверку.
Полагаю что-то типа того:
Интересно посмотреть на текст, который переведён из перевода и сделать сверку.

It's interesting to look at the text that is translated from the translation and make a reconciliation.

Интересно посмотреть на текст, который переводится с переводом и выносить примирение.
Отличная идея. Поговорим со Smartcat, может быть сделаем UPD статьи.
Согласен, как оценить качество перевода?
Это очень интересный вопрос. Самый, наверное, популярный способ — сделать выборку текстов (скажем, 1% от объёма), перевести её с помощью человека, а потом результат сравнить с постредактированным машинным переводом. Если допустить, что человеческий перевод является эталонным, то можно сравнить отличие эталонного текста от постредактированного МТ и сделать вывод о качестве.
Да пожалуй я с вами соглашусь
UFO just landed and posted this here
Ну удачи вам в переводе нужных вам статей с китайского языка :)
Статьи (как минимум технические) с китайского языка переводятся в разы проще чем с английского. Проблема только в том чтобы знать язык, но это уже не о переводе :)
Я имел ввиду, что например среднестатистическому американцу не будет дела до статей на Хабре, ТК он не знает русский язык, а значит, он никак не сможет узнать, что здесь есть потрясающие статьи, как раз те, что ему надо. Это был ответ Г-ну anfield343, поэтому «переведет сам» не работает.
UFO just landed and posted this here

Старые уже устоялись а новые ещё могут редактироваться. Я после публикации часто дополняю и правлю статьи да и корректоры помогают. Ну и потом старые статьи уже получили свою оценку от общества.

Иногда я не понимаю системников на русском, а девушка фрилансер переводит технические статьи?
Для топ 10% статей точно нужен технический переводчик профессионал, пускай и для пост редакции.

А как же комментарии?
В них ценного не меньше, а иногда и больше чем в статье.

Отличная идея, кстати. Тогда встаёт вопрос, стоит ли переводить все комментарии, или, например, только рейтинговые.

А где там ссылки на оригинал?

«Решили перевести на английский» — а зачем вы нам об этом рассказываете, рассказывайте англоязычным. Я бы вас больше ценил, если бы английские (а лучше китайские/испанские) статьи на русский переводили. Хоть у меня английский и беглый, а на родном языке всё равно читать быстрее и приятнее.
UFO just landed and posted this here
«Как дешевле всего пересчитать все песчинки на пляже?». Никак. Если расходам не противопоставлен больший доход, то это убыточное дело. Независимо от того насколько малы расходы. А про средний доход от одной статьи ничего не было сказано.
Дональд Кнут напоминает: «Преждевременная оптимизация — корень всех зол»

Перевод переводу рознь. Иногда техническая документация в оригинале более понятна, чем перевод. + от ошибок самих редакторов никто не застрахован, они далеко не программисты. Логичнее было бы убрать статьи, которые переводили и сделать выборку по важным (популярным) статьям, которые и переводить. Определенный %, который никто не читает есть и здесь.

Кстати, есть ли англоязычные аналоги Хабр? Раз у нас тема зашла об этом.
Спасибо, это я видела. Но, беря тот же Reddit, там другая идея постинга. :) Мне кажется даже Medium ближе сейчас.
Попробую ответить сразу всем комментаторам выше.
Стоит, конечно, оговориться, что на самом деле Хабр мы переводить не собирались, а использовали его для расчётов. Скажем так, чтобы местные жители понимали масштаб контента, о котором мы говорим. Нашей целью было показать прикладное применение машинного перевода в промышленных масштабах.
Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок. Переводить описания товаров вручную традиционным способом долго и дорого. Полагаться только на машинный перевод — опасно (помните все эти смешные описания с AliExpress? их, кстати, всё меньше). Сценарий машинный перевод+постредактирование в этом случае — хорошее соотношение по срокам/стоимости.
E-commerce — самый очевидный пример. Есть ещё различные отзывы на сервисах бронирования, например.

Пример другого рода — трейдерские сводки. В международных компаниях, где те или иные действия обусловлены событиями в разных точках мира, очень важно получать новостные сводки как можно быстрее (но при этом не «сырой» результат машинного движка). Тут машинный перевод + постредактирование позволяют перевести новость быстро и понятно, успев до того, как она протухнет.

Мой любимый пример — пачки юридических документов, которые обязательно нужно переводить на другие языки при международных процессах. Задержки в таких случаях могут стоить больших денег.

Иными словами, Хабр мы переводить не будем, мы лишь на примере Хабра демонстрируем экономическую целесообразность работы с машинным переводом на больших объёмах.
Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок.

Панель от Гугла с этим прекрасно справляется и не нужно хранить переводы у себя.
Google Toolbar?
Но ведь тут у вас вообще нет контроля за качеством того, что там потенциальные покупатели напереводили.
Если под выходом на рынок имеется в виду доставка в новые регионы, то этого может хватить.
Кажется вашей целью являлось — пропиарить свой продукт под видом псевдоинтересных расчетов для местного сообщества. Много упоминаний кампании и 0 выводов, а то что машина переведет быстрее и дешевле людей, было известно еще ежу.
Ежу не было известно, насколько быстрее и насколько дешевле обойдётся машинный перевод. Мы же привели конкретные цифры, которые могут быть приблизительным ориентиром для бизнеса.
Все верно, ежу это и не нужно, ваша ЦА те у кого есть деньги и бизнес, а не ежи. Понимание фундаментальных принципов освобождает от знания множества фактов.
image
Смоленск. Гостиница Аврора. 2017 год.
ну тогда уж
Please remove the number

а что с комментариями? в некоторых статьях есть такие, что полезней самой статьи

комментарии, пожалуй, потребуют препроцессинга, чтобы движок МТ их понял. Всё-таки, когда люди пишут комментарии, они не так себя дисциплинируют как при написании статей. Конечно, на Хабре качество текста в комментариях повыше, чем, скажем, в сообществе MDK, но, думаю, препроцессинг понадобится.
Такой подход использует отдел машинного перевода eBay. Им приходится переводить большое количество контента, созданного пользователями (описания товаров), который совсем не заточен на перевод. Ребята из eBay создали (и ежедневно дополняют) набор правил, который изменяет исходный текст перед отправкой в движок машинного перевода так, чтобы на выходе был более качественный перевод: исправление опечаток, расшифровка аббревиатур, исправление сленговых оборотов и т.д.
Мне кажется, эта статья должна быть в хабе «Я пиарюсь». :)
Менее девяти миллионов слов на всём Хабре? Я, видимо, как-то не так понял. Как подсчитывалась эта цифра? Как-то маловато по-моему, особенно если сравнить с вот этой статьёй.
Сначала мы попробовали использовать Easyling (обзор этого сервиса был на Хабре), но он при подсчёте Хабра зависает и перестаёт считать.
Менее 9 миллионов слов мы насчитали с помощью http://www.sitewordcount.com/#/ (который работает на движке Langprism).

Наши коллеги из компании GetLoc после выхода этого поста решили проверить наш подсчёт с помощью своего движка, подсчёт идёт уже пятый день, цифра уже превысила нашу — почти 13 миллионов слов. Посмотрим, когда досчитается.
Интересный результат прислали из GetLoc: спустя более 10 дней подсчёта Хабра получилось 41 920 106 слов (237 379 782 символа). И это уже с учетом повторяемости, т.е. весь объем сравнился друг с другом. Все сегменты уникальные.
Похоже, что это единственный кроулер, который не сошёл с дистанции и посчитал весь объём Хабра с комментариями.
Когда-то у Microsoft все статьи были переведены на русский, видимо, их переводчиком. Но переводчик применялся к техническому материалу ну, по сути, вслепую. В результате были постоянно такие перлы как default char unsigned = «символ по умолчанию не подписан».
Sign up to leave a comment.