Комментарии 56
https://hsto.org/files/850/ed8/f35/850ed8f35c0046b5be2c741d831c4a73.png
Его даже как словарь опасно использовать, не говоря о семантике. Схема работы ничего не прояснила, но очень любопытно увидеть результат.
«И Боромир, превозмогая смерть, улыбнулся.» — Перевод В. Муравьева, А. Кистяковского.
«Тень улыбки промелькнула на бледном, без кровинки, лице Боромира.» — Перевод Н. Григорьевой, В. Грушецкого.
«Уста Боромира тронула слабая улыбка.» — Перевод М. Каменкович, В. Каррика.
«Boromir smiled.» — Оригинал.
In addition to releasing this research paper today, we are announcing the launch of GNMT in production on a notoriously difficult language pair: Chinese to English. The Google Translate mobile and web apps are now using GNMT for 100% of machine translations from Chinese to English—about 18 million translations per day. The production deployment of GNMT was made possible by use of our publicly available machine learning toolkit TensorFlow and our Tensor Processing Units (TPUs), which provide sufficient computational power to deploy these powerful GNMT models while meeting the stringent latency requirements of the Google Translate product. Translating from Chinese to English is one of the more than 10,000 language pairs supported by Google Translate, and we will be working to roll out GNMT to many more of these over the coming months.
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
А big data уже давно неотделима от крупного бизнеса. (к примеру в банках)
И еще, возможно ли то, что показано в ролике без нейросетей? А, именно, очень такой не слабый прогресс, который уже влияет на рынок страхования в США. Вы только представьте, какая это часть американской экономики и мировой экономики. Я про страхование.
UK детектится по беглому взгляду на дорожную карту — наверно ни в одной другой стране не делают столько много круговых развязок как в Англии.
Тесла своим автопилотом поразила финансовые дома, которые занимаются всеми видами страховок тем или иным образом связанные с автомобилями.
И их мало интересует, костыли это или ходули.
Они понимают, что в течении 3-5-7-10 лет рынок автомобильного страхования может в корне измениться или исчезнуть вовсе. Поэтому не в шутку и всерьез ищут новые ниши для своих капиталов.
На данный момент все мало мальски значимые автопроизводители очень активно занимаются разработкой своего автопилота. Несмотря на то, что громкие заголовки делают далеко не все компании.
Это кстати одна из версий, почему Крис Урмсон, главный технический директор проекта беспилотных автомобилей Google, покинул проект в этом августе.
Рынок «на пути к автопилоту» сейчас переживает очень сильное развитие, которое не сильно заметно людям во в него не вовлеченным.
Более подробно тут: https://www.quora.com/Why-are-so-many-people-leaving-Googles-self-driving-car-unit
<...> учитывая вес каждого фрагмента в оригинальном тексте
Ну и как же компьютер способен «взвесить» этот самый фрагмент? Откуда машина берет семантическую составляющую?
Еще ладно книги и документы, но если мы говорим о переводе разговорной речи (особенно устной), о какой точности может идти речь, если абсолютно большая часть информации — это невербальные признаки (интонация, жесты, мимика, поза, расстояние, громкость). Разумеется нужны дополнительные «каналы входящей информации», но нужны алгоритмы намного более сложные чем те, которые отличают кошек от хлеба на картинках.
Пойду дальше распечатывать письма от моих друзей, а Google Translate пускай пока решит — ножом или на принтере.
Почитайте о word2vec, как-то так и определяет. Если кратко, определяет по месторасположению в предложении: с какими словами рядом может/не может располагаться, вместо каких слов в предложении может употребляться и т.п. На больших масштабах эта штука начинает работать весьма точно.
Word2vec — правильное направление развития. В лингвистике это называется корпусом языка и позволяет всего лишь фиксировать состояние языка, но никак не способствует развитию каких-либо технологий напрямую. Другими словами, можно сколь угодно долго собирать корпус и выявлять частотность, но это никогда не позволит машине понять, где и почему она ошиблась.
LSTM-сети хороши тем, что они учатся создавать и использовать контекст для определения вероятности варианта перевода. Сеть сворачивает культурные особенности текста в вектор контекста. Возможно в этом векторе есть и детектор иронии. Если это не понимание, то я даже и не знаю, что можно назвать пониманием.
Конечно, современные сети не идеальны. У них нет мета-уровня. Они не умеют учиться учится, т.е. не умеют кодифицировать найденные закономерности для использования в похожих ситуациях и т.п. Но, учитывая результаты их работы, называть их тупыми числодробилками, как, например, делает некий известный лингвист, в своё время сильно помешавший развитию статистических подходов в лигвистике, становится всё тяжелее.
Как лингвист я не верю в успех машинного перевода на текущем этапе развития, но не буду скрывать своего восхищения самой идеей обработки целых культур в виде векторов контекста.
То есть, например, венгерский — английский, английский — китайский.
Пара венгерский-вьетнамский сложна с точки зрения количества материала для обучения. Поэтому скорее всего перевод идет через английский.
Пара английский-китайский сложна именно с точки зрения разницы между языками, а материалов как раз достаточно.
Угро-финские языки отличаются от китайского или вьетнамского значительно сильнее.
Я думаю, что при выборе пары все-таки руководтвовались не столько сложностью, сколько доступностью обучающей выборки.
Удалено
Переводчик Google Translate подключили к нейросети