company_banner

Яндекс.Перевод в оффлайне. Как компьютеры научились хорошо переводить

    Сегодня в App Store вышло обновленное приложение Яндекс.Перевода для iOS. Теперь в нем есть возможность полнотекстового перевода в офлайн-режиме. Машинный перевод прошел путь от мейнфреймов, занимавших целые комнаты и этажи, до мобильных устройств, помещающихся в карман. Сегодня полнотекстовый статистический машинный перевод, требовавший ранее огромных ресурсов, стал доступен любому пользователю мобильного устройства – даже без подключения к сети. Люди давно мечтают о «вавилонской рыбке» – универсальном компактном переводчике, который всегда можно взять с собой. И, кажется, мечта эта постепенно начинает сбываться. Мы решили, воспользовавшись подходящим случаем, подготовить небольшой экскурс в историю машинного перевода и рассказать о том, как развивалась эта интереснейшая область на стыке лингвистики, математики и информатики.



    «Это все делает машина», «Электронный мозг переводит с русского на английский», «Робот-билингва» – такие газетные заголовки увидели читатели ликующей прессы 8 января 1954 года. А днем ранее, 7 января, научный компьютер IBM 701 принял участие в знаменитом Джорджтаунском эксперименте, переведя около шестидесяти русских фраз на английский. «Семьсот-первый» использовал словарь из 250 слов и шесть синтаксических правил. И, конечно же, очень тщательно подобранный набор предложений, на которых проводилось тестирование. Вышло настолько убедительно, что восторженные журналисты со ссылками на ученых заявляли о том, что через несколько лет машинный перевод почти полностью заменит классический «ручной».

    Джорджтаунский эксперимент был одним из первых шагов в развитии машинного перевода (и одним из первых применений ЭВМ для работы с естественным языком). Тогда многие проблемы из тех, с которыми предстояло столкнуться в будущем, были еще не так очевидны. Однако главной проблемой, по иронии, стало то, что как раз таки было очевидно с самого начала – компьютеру труднее всего давалась работа с многозначными словами. На более-менее естественных предложениях система практически полностью переставала справляться с задачей. Сложная многокомпонентная структура таких систем также создавала проблемы: например, синтаксический анализ не всегда срабатывал верно, и составное слово guitar pick (медиатор) могло быть переведено как «выбор гитары». Также плохо переводились многозначные слова, смысл которых зависел от контекста. Например, текст «Little John was looking for his toy box. Finally he found it. The box was in the pen» вызывал (и продолжает вызывать) очень много сложностей – как словосочетание «toy box», переводившееся как «игрушечная коробка», а не «коробка для игрушек», так и «in the pen», которое переводилось как «в ручке», а не «в детском манеже». Сложности были огромными, и в итоге за 12 лет сдвинуться с мертвой точки почти не получилось. В 1966 году разгромный доклад ALPAC (Automatic Language Processing Advisory Committee) положил конец исследованиям в области машинного перевода на следующие десять лет.

    Пока же настроения после Джорджтаунского эксперимента были еще весьма радужными и машинному переводу предрекалось большое будущее, американцы начали всерьез задумываться об использовании новой технологии в стратегических целях. Что в полной мере осознавали и в СССР. В начале 1955 года Академией Наук СССР были созданы две исследовательские группы – в Математическом Институте имени В. А. Стеклова (руководителем группы стал выдающийся математик и кибернетик Алексей Ляпунов) и в Институте точной механики и вычислительной техники AН СССР (её возглавил математик Д. Ю. Панов). Обе группы начали с детального изучения Джорджтаунского эксперимента, а уже в 1956 году Панов опубликовал брошюру, в которой излагал результаты первых экспериментов по машинному переводу, проведенных на компьютере БЭСМ. В том же 1956 последовала публикация об аналогичных изысканиях в институте им. Стеклова за авторством Ольги Кулагиной и Игоря Мельчука, которая вышла в сентябрьском номере журнала «Вопросы языкознания». Эта публикация сопровождалась различными вводными статьями, и вот тут-то было обнаружено кое-что интересное: оказалось, что в 1933 году в АН СССР обратился некий Пётр Петрович Троянский, эсперантист и один из соавторов БСЭ, с проектом машинного переводчика и просьбой обсудить этот вопрос с лингвистами Академии. Ученые отнеслись к идее скептически: дискуссии вокруг проекта продолжались одиннадцать лет, после чего связь с Троянским была внезапно потеряна, а сам он предположительно уехал из Москвы.

    Эта историческая находка удивила исследователей; начались изыскания. Удалось найти авторское свидетельство Троянского на «механизированный словарь», позволяющий быстро переводить тексты одновременно на несколько языков. После очередного пленарного заседания, на котором Ляпунов прочитал доклад об этом изобретении, Академией Наук был создан специальный комитет по изучению вклада Троянского. Прошло несколько лет и, наконец, в 1959 году была опубликована статья «Перeводная машина П. П. Троянского: сборник материалов о машине для перевода с одного языка на другие, предложенной П. П. Троянским в 1933 г.» за авторством И. К. Бельской и Д. Ю. Панова. Вскоре было опубликовано и авторское свидетельство, из которого было видно весьма оригинальное технологическое решение устройства.



    В проекте машина Троянского представляла собой стол с наклонной поверхностью, перед которым была закреплена фотокамера, совмещенная с печатной машинкой. Клавиатура печатной машинки состояла из обычных клавиш, которые позволяли кодировать морфологическую и грамматическую информацию. Лента печатной машинки и плёнка камеры должны были быть соединены вместе и подаваться синхронно. На самой же поверхности стола должно было быть расположено так называемое «глоссарное поле» – свободно двигающаяся пластина с напечатанными на ней словами. Каждое из слов сопровождалось переводами на трех, четырех и более языках. Все слова должны были быть даны в начальной форме и расположены на доске таким образом, чтобы наиболее часто используемые слова были ближе к центру – как буквы на клавиатуре. Оператор машины должен был сдвинуть глоссарное поле и сделать фотоснимок слова и его переводов, одновременно набрав на печатной машинке относящуюся к слову грамматическую и морфологическую информацию. В итоге получалось две ленты: одна со словами сразу на нескольких языках, а вторая – с грамматическими пояснениями к ним. Когда весь исходный текст был набран таким образом, материал уходил носителям языка – ревизорам, которые должны были сверить две ленты и составить по ним тексты на своих языках. Далее материалы должны были быть переданы редакторам, знающим оба языка. Их задачей было довести текст до литературного вида.



    Главная идея изобретения – разделение процесса перевода на три основных этапа (кстати, первый и последний в современной терминологии назывались бы «pre-editing» и «post-editing»). Что интересно, самые затратные по времени процессы (кодирование исходного текста и синтез из этой информации текстов на других языках) требуют от операторов всего лишь знания родного языка.

    Таким образом, перевод осуществлялся сначала между естественным языком и его логической формой, затем между логическими формами двух языков, а после этого текст в логической форме целевого языка выверялся и приводился к естественной форме. Троянский, как историк науки, несомненно знал о теориях Лейбница и Декарта о создании универсального языка и переводе через интерлингву. В предложенной им технологии прослеживается влияние этих теорий. Более того, Троянский был эсперантистом, и построил систему кодирования грамматической информации на основе грамматики Эсперанто (от чего позже по политическим соображениям был вынужден отказаться).

    Что особенно интересно, уже в сороковые годы Троянский рассматривал перспективы создания «мощного переводного устройства на базе современных технологий связи». Однако при жизни идеи изобретателя были встречены академическим обществом с огромным скепсисом и впоследствии преданы забвению. Троянский умер в 1950, не дожив совсем немного до начала работы над машинным переводом в Советском Союзе. Английский исследователь машинного перевода Джон Хатчинс считает, что если вклад Троянского не был бы забыт, принципы его переводной машины легли бы в основу первых экспериментов на БЭСМе, и это бы поставило изобретателя в ряды «отцов» машинного перевода наряду с Уорреном Уивером. Но, к сожалению, история не имеет сослагательного наклонения.

    Перенесемся на сорок лет вперед, в восьмидесятые. После ALPAC’а ни у кого, кроме самых отчаянных энтузиастов, не было серьезного желания заниматься машинным переводом. Однако, как это часто бывает, двигателем прогресса стал бизнес. В конце шестидесятых курс на глобализацию мира был уже очевиден. Перед международными компаниями встала острая необходимость поддерживать тесные торговые контакты в нескольких странах одновременно. В 1980-е годы запрос бизнеса на технологию быстрого перевода документов и новостей возрос: и тут «расчехлили» машинный перевод. Не отставало и Европейское экономическое сообщество – будущий Евросоюз – в 1976 в этой организации стал активно использоваться SYSTRAN – первый в истории коммерческий машинный переводчик. В дальнейшем эта система стала почти обязательным приобретением любой уважающей себя международной компании: General Motors, Dornier и Aerospatiale. Не оставалась в стороне и Япония: все увеличивающиеся объемы работы с Западом вынуждали крупные японские корпорации вести свои разработки в этой области. Правда, в большинстве случаев они (как и «Систран») так или иначе были вариациями правиловых (rule-based) систем, с их известными «родовыми» травмами – неумением корректно работать с многозначными словами, омонимами и идиоматическими выражениями. Такие системы также отличались большой дороговизной, поскольку для создания словарей требовался труд большого штата профессиональных лингвистов, а также негибкостью – довольно затратным делом была адаптация для нужной предметной области, не говоря уже о новом языке. Исследователи по-прежнему предпочитали концентрироваться на системах, использовавших правила, а также семантический, синтаксический и морфологический анализ.

    По-настоящему новая эра машинного перевода началась в 1990-х годах. Исследователи поняли, что естественный язык очень сложно описать формально, и еще сложнее применить формальные описания к живому тексту. Это было слишком тяжелой и ресурсоемкой задачей. Нужно было искать другие пути.

    Как обычно, когда проблема кажется практически неразрешимой, полезно сменить перспективу. На сцене снова появилась компания IBM, одна из исследовательских групп которой разработала систему статистического машинного перевода, названную Candide. Специалисты подошли к задаче машинного перевода с точки зрения теории информации. Ключевой идеей стала концепция так называемого канала с ошибками (noisy channel). Модель канала с ошибками рассматривает текст на языке A как зашифрованный текст на любом другом языке B. И задача переводчика – дешифровать этот текст.

    Прибегнем к забавной иллюстрации. Представьте себе англичанина, который изучает французский язык и с целью попрактиковаться в нем приехал во Францию. Поезд прибыл в Париж, и нашему герою нужно найти камеру хранения на вокзале Гар-дю-Нор. После безуспешных поисков он наконец обращается к случайному прохожему и, заранее обдумав фразу на английском, спрашивает его по-французски, не знает ли тот, где можно найти камеру хранения. Задуманная английская фраза как бы “искажается” и превращается во фразу на французском языке. На беду, прохожий оказывается англичанином, и знает французский довольно плохо. Смысл фразы он восстанавливает, пытаясь восстановить с помощью своих познаний во французском и примерного представления того, что вероятнее всего имел ввиду его собеседник – то есть, говоря проще, пытается угадать, какую английскую фразу тот задумал.

    IBM’овцы работали как раз с французским и английским: в руках исследовательской группы было огромное количество параллельных документов из оборота канадского правительства. Исследователи построили свои переводные модели следующим образом: собрали вероятности для всех сочетаний слов определенной длины на двух языках и вероятности для соответствия каждого из таких сочетаний сочетанию на другом языке.

    Далее самый вероятный перевод e, допустим, на английский, для, например, французской фразы f может быть определен так:



    где E – это все английские фразы в модели. Как англичанин пытался угадать мысли своего соотечественника, алгоритм пытается найти самую частотную фразу на английском, которая имела бы хоть какое-то отношение к тому, что потенциально могло быть задумано, когда произносилась французская фраза.

    Такой простой подход оказался самым действенным. IBM’овцы не применяли никаких лингвистических правил, и, на самом деле, в группе практически никто не знал французского языка. Несмотря на это, Candide работал, и более того – работал довольно хорошо! Результаты исследования и общий успех системы стали настоящим прорывом в области машинного перевода. И самое главное, опыт Candide доказал, что не обязательно иметь дорогостоящий штат первоклассных лингвистов для составления правил перевода. Развитие же интернета дало доступ к огромному количеству данных, необходимых для создания больших моделей перевода и языка. Исследователи сконцентрировали усилия на разработке алгоритмов перевода, сборе корпусов параллельных текстов и выравнивании предложений и слов на разных языках.

    А пока статистический машинный перевод находился в стадии промышленной разработки и медленно добирался до пользователей сети Интернет, на рынке онлайн-перевода господствовали rule-based системы. Здесь надо заметить, что – rule-based перевод появился задолго до интернета и начал продвижение в широкие массы с программ для десктопных компьютеров, и, чуть позже, переносных (palm-size и handheld) устройств. Версии для онлайн-пользователей появились только в середине 90-х годов и наибольшее распространение получил уже знакомый нам «Систран». В 1996 году он стал доступен пользователям интернета – система позволяла переводить небольшие тексты онлайн. Вскоре после этого разработки «Систрана» стал использовать поисковик AltaVista, запустив сервис BabelFish, благополучно доживший в составе Yahoo до 2012 года. Появившийся в виде веб-приложения в 1998 году и быстро ставший популярным в рунете PROMT-онлайн использовал собственные технологии, но работал также в парадигме rule-based machine translation.

    Первопроходец статистического онлайн-перевода Google запустил первую версию сервиса Translate только в 2007 году, но очень быстро завоевал всеобщую популярность. Сейчас сервис предлагает не только перевод для более чем 70 языков, но и много полезных инструментов вроде исправления ошибок, озвучивания и т.п… По его следу идет не такой популярный, но довольно мощный и активно развивающийся онлайновый переводчик компании Майкрософт, предлагающий перевод для более чем 50 языков. В 2011 году появился Яндекс.Перевод, который сейчас поддерживает более 40 языков и предлагает разнообразные средства упрощения набора текста и улучшения качества перевода.

    История появления Яндекс.Перевода началась летом 2009 года, когда Яндекс занялся исследованиями в области статистического машинного перевода. Все началось с экспериментов с открытыми системами статистического перевода, с разработки технологий поиска параллельных документов и создания систем тестирования и оценки качества перевода. В 2010 году приступили к работе над высокоэффективными алгоритмами перевода и программами для построения переводных моделей. 16 марта 2011 года была запущена публичная бета-версия сервиса Яндекс.Перевод с двумя языковыми парами: англо-русской и украино-русской. В декабре 2012 года появилось мобильное приложение для iPhone, через полгода версия для Android, а еще через полгода версия для Windows Phone.

    Здесь мы возвращаемся к исходной точке рассказа – появлению офлайнового перевода. Напомним, что статистический машинный перевод изначально разрабатывался для работы на мощных серверных платформах с неограниченными ресурсами оперативной памяти. Но не так давно началось движение в обратном направлении – переработка мощных серверных приложений в компактные приложения для смартфонов. Два года назад приложение Bing Translator для Windows Phone научилось работать без подключения к интернету, а в 2013 компания Гугл запустила полнотекстовый офлайн-перевод на платформе Андроид. Яндекс тоже работал в этом направлении и вот в мобильном приложении Яндекс.Перевод для iOS появилась возможность пользоваться в офлайн-режиме сначала словарем, а теперь уже и полнотекстовым переводом. То, для чего раньше требовался этаж с мейнфрейм-системой, а затем мощный сервер с десятками гигабайт ОЗУ, сегодня помещается в кармане или дамской сумочке и работает автономно – без обращений к удаленному серверу. Такой переводчик будет работать там, где еще нет интернета — высоко над облаками, в двадцати тысячах лье под водой и даже в космосе.

    Подводя итоги, можно сказать, что в области машинного перевода за последние десятилетия был достигнут огромный прогресс. И, хотя до мгновенного и незаметного для пользователя перевода с любого языка галактики пока еще очень далеко, но тот факт, что за последние несколько десятилетий в этой области совершен огромный скачок, не вызывает никаких сомнений, хочется надеяться, что новые поколения систем машинного перевода будут неуклонно к нему стремиться.

    Яндекс

    712,67

    Как мы делаем Яндекс

    Поделиться публикацией
    Комментарии 56
      +11
      История с «машинным переводом» очень напоминает историю с управляемыми термоядерным синтезом, и там и там вначале казалось, что решение вот оно, рядом, если не к концу квартала, то уж к концу года все будет сделано. Быстро были найдены методы, казавшиеся идеальными для быстрого решения (в термояде это запирание плазмы в магнитном поле и схема ТОКАМАКа), да и параллельные процессы, например атомная бомба, термоядерная «водородная» бомба и атомный реактор, были сделаны сравнительно легко и быстро, казалось, что четвертый вариант, термоядерный реактор — вот он, на подходе. Ан — нет.
      Что-то подобное произошло с переводом и «искусственным интеллектом» (долго казалось, что это две связанные темы), сперва казалось, что решение вопроса — предмет работы в течение нескольких лет. Тем не менее, прошло 60 лет, а цель все так же не близка. Или, вернее, не ближе, чем управляемый термояд.
        +10
        На самом деле ситуация с термоядом в каком-то смысле противоположна ситуации с переводчиком.

        В случая с термоядом более-менее понятны критерии, когда он может считаться «введённым в строй» (когда энергия от ТЯЭС начнёт поступать потребителям; всё остальное — промежуточные этапы), но оказалось что добиться этого ой как непросто.

        А вот с ИИ вообще и с переводом в частности не очень ясны именно критерии, по которым задача считается решённой или нерешённой. Грубо говоря любая задача, традиционно относящаяся к ИИ после её решения объявляется «ненастоящим ИИ» и с переводом — та же история. И то, что переводчики давно и успешно реально используются реальными людьми для решения реальных проблем — ни разу не показатель. Это, типа, «ненастоящий» перевод, «суррогат», «подделка». При этом что такое «настоящий» — никто толком объяснить не может. Разве что определить его как «перевод настолько похожий на то, что может сделать человек, что нельзя сказать — сделал его человек или машина», но тогда этот тест станет просто очередной версией Теста Тьюринга.
          –1
          При этом что такое «настоящий» — никто толком объяснить не может.
          Это безошибочный перевод, очевидно же ;)
            +11
            Безошибочный перевод никто сделать не в состоянии. Просто потому не все тексты имеют один смысл (классическое «Эти типы стали есть в прокатном цехе» с тремя возможными вариантами смысла). Потому это «очевидное» определение, увы, абсолютно бессмысленно.
              +1
              Не вижу никакого противоречия. Ваш пример вырван из контекста, очевидно, что если предыдущее предложение было, скажем, «Заказчик интересовался такими-то типами стали», то двусмысленность исчезает. Если же рассматривать дву-(или более)-смысленный кусок совсем без контекста, то логично ожидать несколько вариантов перевода (никто же не удивляется, когда видит в словаре 15 вариантов перевода слова, и словарь из-за этого не становится «плохим»).
                0
                «Перевод Бога»? С таким подходом теоретически «настоящий» перевод возможен, но практически — его неспособны сделать никакие реально существующие переводчики (ни машины, ни человеки), так что всё равно смысла в подобном определении нет. Потому что для понимания контекста человек должен быть «в теме», а существование множества культур и субкультур гарантирует, что знать о всех «темах» не сможет никто.

                Выйдет как в Mass Effect: для осуществления полного и точного перевода придётся уничтожить человечество, чтобы новые контексты, наконец, перестали появляться.
                  0
                  Потому что для понимания контекста человек должен быть «в теме», а существование множества культур и субкультур гарантирует, что знать о всех «темах» не сможет никто.
                  Ну, меня-то вполне устроит специализированный переводчик для конкретной предметной области. Если вы рассуждаете о переводчике, который безошибочно и сходу сможет перевести любой текст в любой предметной области, то а) мы с вами изначально говорили о разных вещах, и б) да, я согласен — в таком случае говорить о «идеальном переводе» бессмысленно.
                0
                Ну, очевидно же, что как и в ИИ критерием может быть неотличимость от работы «человеческого» переводчика, вариант «теста Тьюринга».
                  0
                  Про вариант «теста Тьюринга» я уже говорил.
                    +3
                    Периодически встречаю переводы, авторы которых успешно проваливают тест Тьюринга.
                      0
                      Верно. Что не мешает этому критерию существовать.
                      С другой стороны я почти всегда могу определить машина ли переводила, или человек (даже корявый и неумелый), конечно если последний переводил сам, а не через гугль-транслейт.
                    +1
                    Типы (люди), типы стали (виды металла), а какой третий смысл?
                      +3
                      Болт Кранк, которому строго указывают, что и где он должен есть.
                        +4
                        Например, так: «Некоторые типы препаратов понижали утомляемость прокатчиков и их восприимчивость к плохим условиям труда. Эти типы стали есть в прокатном цехе».
                      +2
                      «Перевод — как женщина, если он красив то неверен, если верен — то некрасив.»(с)

                      Перевод — это не более чем адаптация текста к реалиям того языка, на который переводят. Она может быть хуже или лучше, но сказать однозначно «вот это ошибочно, а это безошибочно» — нельзя в принципе.
                      Для начала — как переводить идиомы/мемы? Дословно или все же дорабатывая напильником и заменяя на неточный, но понятный там, куда переводим, аналог?..
                    +1
                    управляемый термояд давно сделан еще в СССР, просто выход энергии почти не превышает затраты на его поддержание.

                    вот как раз новая установка должна сделать это пригодным для коммерческого использования
                      0
                      Управляемый термояд — это водородная бомба. Вполне себе управляемый, управляемо взорвали — она взорвалась. Вопрос не в этом.
                        0
                        Тогда машина, катящаяся под откос — тоже эталон управляемости: захотели — толкнули — покатилась.

                        Управляемость процесса подразумевает возможность поддерживать его любое время, а также при желании прекратить в любой момент. Водородная бомба такого не позволяет.
                    –3
                    Качественный переводчик должен вкурить тему.
                    Пока компы не научатся вкуривать тему нормального перевода не будет.
                      +2
                      Курить — вредно.
                      +4
                      Первопроходец статистического онлайн Google
                      Здесь, очевидно, пропущено слово.

                      Год назад компания Гугл запустила полнотекстовый офлайн-перевод на платформе Андроид.
                      Вы упускаете Bing — у пользователей Windows Phone переводчик (в т.ч. с оффлайновой базой) есть уже давно «из коробки»:

                        +1
                        Да, действительно, Вы правы, Бинг мы упустили. Офлайн-перевод появился у них в 2012 году.
                        Отредактировал пост, спасибо!
                        0
                        Забавно, но компьютеры пока не научились нормально переводить.
                          +5
                          Так и люди не научились. Например, в тексте полно фраз «rule-based» и названий, набранных латиницей («iOS», «Candide») и прочее.
                            0
                            А как по-вашему должен быть переведен iOS?
                              –1
                              Он не переведён должен быть, а транслитерирован.
                                +2
                                Айоэс?
                                  –2
                                  «АйОС» очевидно. Ведь вы, наверное, так это слово произносите?
                                    0
                                    Я произношу как «аёс», например. Иногда как «аёэс».
                              +3
                              Действительно, переводчики старой школы настаивают на переводе названий иностранных компаний, брендов и т.п. Они опираются на то, что читатель может не знать, как именно читается то или иное слово. Но в современных реалиях и подобных контекстах это не совсем уместно. Правила чтения наиболее распространенных европейских языков хотя бы частично знакомы большинству взрослых людей. А если читатель решит поискать информацию об упомянутом продукте или бренде и введет кириллическое написание, найдет он гораздо меньше информации о нем, чем если бы искал латиницей. Заставлять читателя проводить обратную транслитерацию, чтобы поискать информацию, согласитесь, странно: гораздо больше вероятность совершить ошибку. То же касается и терминов: если он чаще встречается и лучше описан в англоязычной литературе, то имеет смысл давать его по-английски, ну или давать сам термин или его перевод в скобках.
                                +3
                                В первом упоминании оригинальное написание названия указывается в скобках. Кстати, вы с первого раза читаете названия «Yves Rocher» правильно? Терминам надо подыскивать нормальные названия, которые укажут на смысл, в скобках можно в первый раз указать термин на другом языке.

                                Человечество так давно уже делает, никаких проблем.
                                  0
                                  Проблемы могут возникнуть, только если неясно, на каком именно языке что-то написано, но это редкость. В сложных случаях действительно уместны скобки, не спорю. Но с утверждением, что все и всегда нужно переводить, не соглашусь.
                                  +2
                                  Правила чтения наиболее распространенных европейских языков хотя бы частично знакомы большинству взрослых людей.

                                  Не раз и не два видел на Хабре неудачные попытки транслитерировать венгерские имена, в том числе знаменитого тов. Mihaly Csikszentmihalyi
                                  Значит, не настолько очевидны правила чтения европейских языков.
                                    +2
                                    При всем уважении к венгерскому языку, не стал бы относить его к наиболее распространенным. Лично я отношу к ним английский, немецкий, французский, испанский.
                                      0
                                      Начнём с того, что на названии не ставят пометки, на каком языке его нужно читать.
                                        0
                                        Знаете, вот есть два таких хоккеиста в НХЛ — один действующий, один закончивший карьеру.
                                        Derek Roy
                                        Patrick Roy

                                        Их фамилии пишутся на английском(!) совершенно одинаково. Вот только Дерек — Рой, а Патрик — Руа.

                                        И никакими правилами это прочтение не определить. Это можно только знать.
                                          0
                                          Попробуйте, пожалуйста, прочитать вслух следующие английские (британские) фамилии и названия:
                                          Cholmondeley, Woolfardisworthy, Costessey, Cockburn, Worcester, Barnoldswick, Wriothesley, Aslackby, Osbournby, Leominster, Godmanchester, Lympne, Ulgham, Blidworth, Stivichal, Ratlinghope, Fetherstonhaugh, Pepys, Maugham, Pucknowle, Wybunbury, Dalziel, Trottiscliffe.
                                          А потом посмотрите видео с правильным произношением:
                                          Я почти уверен, что правильно прочитать удалось только Вустер (Worcester).
                                            0
                                            Ролик забавный, однако о всяких зубодробительных исключениях, топонимах и именах-фамилиях речи не шло.
                                              0
                                              Пардон, разве речь не идёт как раз о «переводе названий иностранных компаний, брендов и т.п.»? Больша́я, если не бо́льшая часть их образована как раз от имён-фамилий (Johnson & Johnson, Mars, PricewaterhouseCoopers, Deloitte, Ernst & Young, Wrigley's, Levi's и даже Nike) и топонимов (Adobe, Yosemite, Cisco и т.д.).
                                                +1
                                                И почти все они вполне подчиняются стандартным правилам чтения и не вызывают никаких затруднений при попытке прочтения. В отличие от того, что в ролике: те слова могут вызвать затруднения и у нейтив-спикеров. Когда придумывают название компании или продукта, таких вещей все же стараются избегать.

                                                Кстати, вот вы упомянули Nike, который у нас принято произносить как «Найк». Если сейчас везде начнут писать «Найки», как оно на самом деле произносится, ничего хорошего из этого не выйдет.
                                                  0
                                                  Я не только «Найки», я ещё и «Адоуби» и «Левис»/«Левайс» упомянул, если что. И не стал упоминать «Сэмсан», «Хёндэ» и прочих.
                                                  Если сейчас везде начнут писать «Найки», как оно на самом деле произносится, ничего хорошего из этого не выйдет.
                                                  Что от этого случилось бы плохого? =) Массовые разрывы шаблонов среди обывателей?
                                                    0
                                                    Просто лишние сущности. Есть исторически сложившиеся русскоязычные произношения названий этих компаний. Отчасти они устоялись именно в таком виде из-за того, что иностранные языки на практическом уровне знали очень плохо, отчасти из-за этих самых старорежимных переводчиков, которые переводили все названия, но переводили транслитерацией.

                                                    Названия азиатских брендов – отдельный разговор. Тот факт, что у нас их зачем-то пишут латиницей, действительно странная практика. У них есть оригинальные написания, которые латинизировались в разные периоды и по разным правилам. И попытки переносить их на русский с этих латинских написаний приводят к еще большим ошибкам в произношении. Взять тот же Samsung. Транслитерация старой школы дает нам «Сасунг», вы читаете по правилам чтения английского – «Сэмсан». Тогда как оригинальное корейское произношение ближе к «Самсон» с носовым «н».
                                                      0
                                                      у нас их зачем-то пишут латиницей, действительно странная практика
                                                      Так в том и дело, что «международное» название всех компаний пишут латиницей. Принято так. И знать, по каким правилам его нужно читать и как его «искорёжили» при переносе на латиницу — невозможно только по одному названию. Поди догадайся, что Hyundai — это «Хёндэ». Я даже не знаю, по каким правилам это нужно читать, чтобы так получилось.
                                                      Кроме того, есть же и всякие последствия обрезания и склейки, как Hynix (хёникс, потому что Hyundai Electronics) или Asus (обрезанный „pegasus“)
                                                        +1
                                                        Странная штука – только лишь двойная транскрипция и транслитерация. В одном проходе нет ничего страшного.
                                                        Я просто не понимаю, почему вы считаете русскоязычное население каким-то особенным. Англоязычные люди как-то справляются с прочтением немецких или французских названий, ну или коверкают их под себя. Как произносить, вообще большого значения не имеет, бренды должны узнаваться в написании и легко искаться в интернете. Если я прочитаю в какой-нибудь статье «Эдоуби», я с большой долей вероятности буду искать несуществующий Adoby или Adobey. Упомянув же в разговоре «Адоб», я буду понят собеседником.
                                                          0
                                                          Я просто не понимаю, почему вы считаете русскоязычное население каким-то особенным. Англоязычные люди как-то справляются с прочтением немецких или французских названий, ну или коверкают их под себя.
                                                          Не то, чтобы прямо особенным, просто кириллица используется не в таком огромном количестве языков, как латиница. К тому же, кириллица в русском намного более строга и фонетична, трудно ей написать что-то такое, что бы невозможно было прочитать правильно. В то время как в том же английском как раз повсеместен подход чтения «потому что так принято читать».
                                                          Скрытый текст
                                                          Вспомним, например, Ghoti, которая, с одной стороны, читается как «фиш», а с другой — не читается вообще. Традиционные blood-flood VS gloom-hood. Опять же, не забудем, что для английского нет единого авторитетного источника «правильного» произношения (языкового регулятора), так что и очевидно безграмотное написание и чтение регулярно становится нормой просто по причине широкой распространённости, см. extrovert, например. Ну, и ещё можно почитать доводы сторонников реформы письменного английского, тоже интересно.
                                                          Странная штука – только лишь двойная транскрипция и транслитерация. В одном проходе нет ничего страшного.
                                                          Не понял вот эту часть совершенно.
                                                            0
                                                            Военные эту проблему давно решили таким образом:
                                                            Алфа-Делта-Оскар-Браво-Эко
                                                0
                                                А во французском вообще полный швах: даже банальное знакомое всем «мерси боку» (с детства помню «судьбе шепнем мерси боку» из «Трех мушкетеров») пишется как merci beaucoup. Легко ли было бы угадать, как это произносится?
                                                  +2
                                                  Как это ни странно, но с транскрипцией во французском в разы лучше, чем в английском. Слов с непредсказуемым произношением не больше тридцати, еще штук тридать — слов с немой h, с которыми не делается связывание, в остальном, правила очень простые. В том же «merci beaucoup» все просто:
                                                  • m — м
                                                  • е — э
                                                  • r — р
                                                  • c — с (потому что дальше идет одна из букв e, y, i)
                                                  • i — и
                                                  • b — б
                                                  • eau — о (всегда)
                                                  • c — к (потому что дальше не идет одна из букв e, y, i)
                                                  • ou — у (всегда)
                                                  • p — никак (последняя согласная слова, не равная r или c)
                                                    0
                                                    В плане количества букв, приходящихся на один звук (как eau), или которые не читаются или читаются непривычно для русского слуха (например «en» как «ан» в слове ensemble) мне кажется французский сильно превосходит английский и многие другие европейские языки.

                                                    Человеку который французский не знает навскидку предсказать как читается слово будет довольно сложно. Ну а речь в этой ветке как раз шла о том, нужна ли русская транскрипция для иностранных слов. ИМХО для французского нужна :-)
                                                  0
                                                  И ещё Maugham, конечно же. Остальные действительно клёвые очень. :)
                                                  Я бы только Lympne правильно прочитал, там просто как-то больше никак.
                                              0
                                              Тут интересн недавний случай: история с Greenpeace и нефтедобывающей платформой. Почему то все (или во всяком случае все которые я видел) «авторитетные» российские новостные агенства сообщили, что это было в «голландском городе Ижмуйден» (возможно, первоисточником был сайт greenpeace.ru). На самом деле, это голландский город IJmuiden (да, 2 заглавные, потому что в голландском это диграф). Произносится же это по-голландски как Аймауден или Аймёйден (в более старом, и традиционно принятом для русской транслитерации, варианте).
                                                0
                                                В БСЭ написано Эймёйден. Очевидно, что тут проблема с фактчекингом, которая среди журналистов прослеживается все чаще. Достаточно было просто ввести название в поисковик, чтобы понять, что ничего транскрибировать или транслитерировать не нужно, т.к. есть историческое наименование. Про перевод топонимов у нас есть даже целый пост.
                                          –1
                                          Фразу из статьи «Little John was looking for his toy box. Finally he found it. The box was in the pen.» Яндекс переводит так: «Маленький Джон искал его ящик для игрушек. Наконец он нашел ее. Коробка была в загоне.»

                                          Не «ручка» конечно же, но и не «детский манеж». Кроме того, почему «её»? Род определился по «коробке»? Но искал он таки «ящик». На мой взгляд род местоимения следую определять по тому, на что оно ссылается раньше по тексту.
                                            +1
                                            Для того, чтобы род местоимения определять по тому, на что оно ссылается нужно для начала начать переводить не отдельные предложения (как все переводчики делают сегодня), а целые фразы. Такое ощущение, что вы статью вообще не читали и воспринимаете Яндекс как маленького мальчика, который ещё немножко путается, а не как систему статистического перевода. Что, в принципе, хорошо: если вы начинаете искать подобные проблемы, то это говорит о том, что переводчик, в целом, вполне работоспособен.
                                              +1
                                              Т.е «её» это наиболее вероятный перевод it в контексте предложения «Finally he found it.»?
                                              Забавно. Особенно если учесть тот факт, что без точки перевод резко меняет род на противоположный.
                                                +7
                                                Известная беда статистического подхода: they are often wrong but never in doubt.

                                                Сама эта фраза, кстати, очень хорошо показывает «блеск и нищету» всех этих систем. Yandex вот прямо сейчас на это не попадается, но вот Google Transalte:
                                                «They are often wrong but never in doubt.» => «Они часто ошибаются, но никогда не сомневаются.»
                                                «They are often wrong but never in doubt» => «Они часто не ошибаются, но никогда не вызывает сомнений»
                                                Что точка-то творит, а? А вы про «его»/«её»…

                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                          Самое читаемое