Мы в этом бенчмарке конечно сравнивали результат из облачных сервисов. Для компаний с фокусом на on-premise (PROMT, Systran, SDL и многие другие) в облаке часто работает не последняя и не самая точная версия движка. Думаю, что читателям хабра это не очевидно, отсюда и комментарии выше с примерами из онлайн-версии.
Могу поделиться наблюдениями с нашей стороны.
(1) NMT не очень хорошо работает с SEO-оптимизированными текстами, для которых характерно избыточное количество прилагательных, родительный падеж, вот это вот всё. Длинный SEO текст может быть переведен одним словом — подходящим, но в контексте бизнес-задачи неправильным. «ROUND TRIP INSTANT PURCHASE FARES» — из этой области.
(2) NMT в целом не очень хорошо работает с короткими текстами. Ему явно не хватает контекста. Это проявляется в неустойчивом качестве перевода — то пусто, то густо.
(3) Часть провайдеров обучается на открытых датасетах (которые они краулят с веба). Поэтому применительно к нашему бенчмарку (который сделан на датасете WMT) результаты иногда расходятся с тем, что мы видим на частных датасетах клиентов.
Напоследок, вот что интегрированные с нам системы перевода выдают для «ROUND TRIP INSTANT PURCHASE FARES» (при этом для более типичных текстов все более-менее хорошо):
Microsoft NMT: Прямой проезд
Microsoft SMT: ТУР МГНОВЕННОЕ ПРИОБРЕТЕНИЕ ТАРИФЫ
SDL Language Cloud: Поездка МГНОВЕННАЯ ПОКУПКА ТАРИФЫ
PROMT: МОМЕНТ КРУГОВОГО РЕЙСА ПОКУПАЕТ ТАРИФЫ
Baidu: тур интернет — покупки фарес
YeeCloud: Раунд ТРИПЛОВЫЙ ПУТЕВЫЙ ПЛАТЫ
Google NMT: КРУГЛЫЕ ПОЕЗДКИ МГНОВЕННЫЕ ПОКУПКИ
Yandex: КРУГЛОГО ПОЕЗДКИ МГНОВЕННЫЙ ТАРИФЫ КУПИТЬ
Systran: ТУДА И ОБРАТНО НЕМЕДЛЕННЫЕ ПЛАТЫ ЗА ПРОЕЗД ПРИОБРЕТЕНИЯ
Хотя максимум веселья был, как мне рассказывали, когда на испытательном полете оказалось, что одну часть системы оповещения о неисправностях сделали по новой версии спецификации, другую — по старой. Сразу после взлета полетели такие ошибки, что пилоты поседели, отключили автоматику и сели вручную.
А я как-то руководил группой по верификации (DO-178, тогда еще B) ПО на одном джете. Тоже было много анекдотов, в частности на радаре не отрисовывались три строчки, потому что (как потом выяснилось) программист переписал часть автоматически сгенерированного кода и оставил комментарий в духе «тут кажется не оптимально сработал кодогенератор», ну и налепил ошибок.
То есть по умолчанию-то можно что угодно предполагать, но наша позиция понятна — мы сотрудники компании и видим всю ситуацию изнутри (хотя аспектов, происходящих в оффшорах, можем не знать). А у вас откуда ваши умолчания о гадостях и прочем?
Максим, я не знал, что твои нападки по топику связаны с обидами и интересами. Но в целом, обрати внимание, что достаточно странно говорить о том, что отсутствие фактов может быть истолковано так и сяк, имея в активе обещания.
Здесь проблема не в коде и дизайне. Медиасервисы — это как гонка вооружений. Те проекты, которые есть сейчас, идут в ногу со временем. Чтобы добиться чего-то серьёзного, недостаточно их отшлифовать и масштабировать. Нужно сделать то, что будет на три корпуса впереди. Чем мы и занимались. То есть занимаемся и будем заниматься, с этими инвесторами или нет — покажет время.
Это, надо сказать, было непривычно. Я с таким последний раз сталкивался в 92-93, когда мы с приятелем были в восьмом классе и зарабатывали мойкой машин у гостиницы «Владыкино». Ну, опыт сын ошибок трудных.
Монетизация стриминга в наше время — это вообще очень веселое занятие. Можете поделиться вашим обширным опытом со Spotify или хотя бы Fidel. В этом проблема захватчиков — они считают, что захватывают синицу, которую можно откормить и заставить нести золотые яйца.
Но в целом-то понятно, что с точки зрения традиционного бизнеса, где контроль пропорционален тому, с каким капиталом партнеры вошли в компанию, в этих наших интернетах ситуация парадоксальная. Можно быть основным вкладчиком денег, и при этом — миноритарием, да еще и ущемленным в правах по акционерному соглашению. А основатель, который «стоит» на порядок меньше тебя, владельца заводов-газет-пароходов, смеет разговаривать на равных, а исподтишка вообще может свысока поглядывать. Вот здесь и находится корень всех проблем.
Так и не спорь, что споришь? :-) Я не слышал, чтобы в Штатах _перед_ сменой гендиректора миноритарии вламывались в офисы. Это точно штаты Америки были?
Здесь речь про асинхронный стохастический градиентный спуск. Он достаточно быстр, в меру точен и масштабируется почти линейно по числу машин. Не слышал про применение для крупномасштабного машинного обучения генетики.
Число выходных нейронов там берется с запасом и, насколько я понимаю, не отделается данными. Просто начиная с определенного момента они не очень осмысленны.
Мы в этом бенчмарке конечно сравнивали результат из облачных сервисов. Для компаний с фокусом на on-premise (PROMT, Systran, SDL и многие другие) в облаке часто работает не последняя и не самая точная версия движка. Думаю, что читателям хабра это не очевидно, отсюда и комментарии выше с примерами из онлайн-версии.
Могу поделиться наблюдениями с нашей стороны.
(1) NMT не очень хорошо работает с SEO-оптимизированными текстами, для которых характерно избыточное количество прилагательных, родительный падеж, вот это вот всё. Длинный SEO текст может быть переведен одним словом — подходящим, но в контексте бизнес-задачи неправильным. «ROUND TRIP INSTANT PURCHASE FARES» — из этой области.
(2) NMT в целом не очень хорошо работает с короткими текстами. Ему явно не хватает контекста. Это проявляется в неустойчивом качестве перевода — то пусто, то густо.
(3) Часть провайдеров обучается на открытых датасетах (которые они краулят с веба). Поэтому применительно к нашему бенчмарку (который сделан на датасете WMT) результаты иногда расходятся с тем, что мы видим на частных датасетах клиентов.
Напоследок, вот что интегрированные с нам системы перевода выдают для «ROUND TRIP INSTANT PURCHASE FARES» (при этом для более типичных текстов все более-менее хорошо):
То есть по умолчанию-то можно что угодно предполагать, но наша позиция понятна — мы сотрудники компании и видим всю ситуацию изнутри (хотя аспектов, происходящих в оффшорах, можем не знать). А у вас откуда ваши умолчания о гадостях и прочем?
Максим, это ты по опыту своего конфликта с Инновой и его публичного освещения? :-)