alizar28 сен 2016 в 11:59

Переводчик Google Translate подключили к нейросети

3 мин

44K

Искусственный интеллектIT-компании

+22

Комментарии 56

xtala 28 сен 2016 в 12:32

Мужайтесь. Мы больше не увидим перлы от китайских товарищей в стиле: «Кастрюлька утюга варит рыб».

Ra-Jah 28 сен 2016 в 12:44

Все хуже, очевидные предложения не мог перевести.
https://hsto.org/files/850/ed8/f35/850ed8f35c0046b5be2c741d831c4a73.png

Его даже как словарь опасно использовать, не говоря о семантике. Схема работы ничего не прояснила, но очень любопытно увидеть результат.

EndUser 28 сен 2016 в 13:10

Русский же не подключали ещё.

AndSoft 28 сен 2016 в 13:27

вышеупомянутые примеры тоже пока переводятся «по-старому»

Ra-Jah 28 сен 2016 в 13:51

Признаться честно, я считал, что переводчик гугла изначально был подключен к нейросетям. :(

НЛО прилетело и опубликовало эту надпись здесь

lonelymyp 29 сен 2016 в 10:23

Это ещё достаточно безобидный вариант.
Вот такой вариант может создать определённые сложности:
https://goo.gl/1e8p9F

mik63 28 сен 2016 в 14:44

А «Символ власти»? ))) это про пульт ДУ.

xtala 28 сен 2016 в 14:52

А это наверное М.Веллер переводил.

betrachtung 29 сен 2016 в 04:15

bondbig 29 сен 2016 в 19:29

NeoCode 28 сен 2016 в 12:46

А зачем ограничиваться официальными документами ООН и Европарламета, если есть огромная библиотека Google books, в которой наверняка есть немало книг переведенных профессиональными переводчиками на разные языки?

TrurlMcByte 28 сен 2016 в 13:17

Художественный перевод иногда слишком художественный. В отличии от официального.

NeoCode 28 сен 2016 в 19:46

Ну так нейросеть же, вот пускай и учится переводить художественно. А официальные документы написаны бюрократическим языком (причем чем круче лавочка тем заковыристее бюрократический язык), поэтому в повседневном переводе малополезны.

TrurlMcByte 29 сен 2016 в 00:59

Ты себе явно не представляешь степень художественности при самых обычных литературных переводах. Зачастую получается совсем новое произведение, с отдалённо похожим на оригинал сюжетом. А иногда и вообще не похожим.

eugenius_nsk 3 окт 2016 в 09:47

Классика:

«И Боромир, превозмогая смерть, улыбнулся.» — Перевод В. Муравьева, А. Кистяковского.

«Тень улыбки промелькнула на бледном, без кровинки, лице Боромира.» — Перевод Н. Григорьевой, В. Грушецкого.

«Уста Боромира тронула слабая улыбка.» — Перевод М. Каменкович, В. Каррика.

«Boromir smiled.» — Оригинал.

НЛО прилетело и опубликовало эту надпись здесь

Sadler 28 сен 2016 в 13:36

Затратно по ресурсам в основном обучение (не берём случай с посэмпловым восстановлением звука из недавней статьи) и переборные этапы алгоритма (в том же AlphaGo был перебор дерева решений). В этой работе я не вижу ничего подобного, лишь две LSTM, так что оно максимум может быть затратно в плане RAM, но едва ли сильно медленно.

НЛО прилетело и опубликовало эту надпись здесь

mypallmall 28 сен 2016 в 14:22

Промахнулся.

mypallmall 28 сен 2016 в 14:25

In addition to releasing this research paper today, we are announcing the launch of GNMT in production on a notoriously difficult language pair: Chinese to English. The Google Translate mobile and web apps are now using GNMT for 100% of machine translations from Chinese to English—about 18 million translations per day. The production deployment of GNMT was made possible by use of our publicly available machine learning toolkit TensorFlow and our Tensor Processing Units (TPUs), which provide sufficient computational power to deploy these powerful GNMT models while meeting the stringent latency requirements of the Google Translate product. Translating from Chinese to English is one of the more than 10,000 language pairs supported by Google Translate, and we will be working to roll out GNMT to many more of these over the coming months.

https://research.googleblog.com/2016/09/a-neural-network-for-machine.html

mypallmall 28 сен 2016 в 14:26

Нет, это уже гиктаймс глючит.

НЛО прилетело и опубликовало эту надпись здесь

daiver19 28 сен 2016 в 15:50

Так вроде английский-китайский еще на старом движке (судя по формулировке, по крайней мере). Данный алгоритм в теории должен давать идентичные переводы после прогона туда-сюда.

kazaff 28 сен 2016 в 13:27

Нейросети сейчас больше дань моде, чем необходимость. Не так давно Серебряной Пулей в ИТ считали big data и использовали этот метод к месту и не к месту.

SAN4EZ7714 28 сен 2016 в 13:41

Не совсем. Нейросети сейчас показывают объективно лучший результат во многих задачах. И как следствие все больше используется в коммерции. (к примеру беспилотные авто)

А big data уже давно неотделима от крупного бизнеса. (к примеру в банках)

mypallmall 28 сен 2016 в 14:37

Вы считаете Тесла, забавы ради так упорно автопилот обновляет?
И еще, возможно ли то, что показано в ролике без нейросетей? А, именно, очень такой не слабый прогресс, который уже влияет на рынок страхования в США. Вы только представьте, какая это часть американской экономики и мировой экономики. Я про страхование.

xtala 28 сен 2016 в 15:05

А руль с правой стороны почему?

НЛО прилетело и опубликовало эту надпись здесь

Sly_tom_cat 28 сен 2016 в 21:08

Островитяне — странные немного они… но у этого хоть язык понятный. Для этого отдельно взятого острова — это редкость…

UK детектится по беглому взгляду на дорожную карту — наверно ни в одной другой стране не делают столько много круговых развязок как в Англии.

НЛО прилетело и опубликовало эту надпись здесь

mypallmall 28 сен 2016 в 17:12

Я про применение ИИ, нейронных сетей в машинах, автомобилях, «тачках».

Тесла своим автопилотом поразила финансовые дома, которые занимаются всеми видами страховок тем или иным образом связанные с автомобилями.

И их мало интересует, костыли это или ходули.

Они понимают, что в течении 3-5-7-10 лет рынок автомобильного страхования может в корне измениться или исчезнуть вовсе. Поэтому не в шутку и всерьез ищут новые ниши для своих капиталов.

На данный момент все мало мальски значимые автопроизводители очень активно занимаются разработкой своего автопилота. Несмотря на то, что громкие заголовки делают далеко не все компании.

Это кстати одна из версий, почему Крис Урмсон, главный технический директор проекта беспилотных автомобилей Google, покинул проект в этом августе.

Рынок «на пути к автопилоту» сейчас переживает очень сильное развитие, которое не сильно заметно людям во в него не вовлеченным.

Более подробно тут: https://www.quora.com/Why-are-so-many-people-leaving-Googles-self-driving-car-unit

74311 28 сен 2016 в 17:39

"… а кредит вообще не получить.." вы так говорите будто это что-то плохое)

Shurik_13 28 сен 2016 в 13:27

<...> учитывая вес каждого фрагмента в оригинальном тексте

Ну и как же компьютер способен «взвесить» этот самый фрагмент? Откуда машина берет семантическую составляющую?

Еще ладно книги и документы, но если мы говорим о переводе разговорной речи (особенно устной), о какой точности может идти речь, если абсолютно большая часть информации — это невербальные признаки (интонация, жесты, мимика, поза, расстояние, громкость). Разумеется нужны дополнительные «каналы входящей информации», но нужны алгоритмы намного более сложные чем те, которые отличают кошек от хлеба на картинках.

Пойду дальше распечатывать письма от моих друзей, а Google Translate пускай пока решит — ножом или на принтере.

Sadler 28 сен 2016 в 13:42

Я вот тоже не могу уловить Ваши мимику, жесты, позу, расстояние и громкость через интернет, однако мне это не мешает использовать разговорный стиль в общении.

Почитайте о word2vec, как-то так и определяет. Если кратко, определяет по месторасположению в предложении: с какими словами рядом может/не может располагаться, вместо каких слов в предложении может употребляться и т.п. На больших масштабах эта штука начинает работать весьма точно.

Shurik_13 28 сен 2016 в 13:51

Но вы прекрасно можете воспринять и учесть оттенок и оценку, которую я вкладываю в свой комментарий. Вы прекрасно понимаете, что я негодую и отрицаю успех сабжа, хотя мой комментарий начинается с двух простых и не самых эмоциональных, но риторических вопросов.

Word2vec — правильное направление развития. В лингвистике это называется корпусом языка и позволяет всего лишь фиксировать состояние языка, но никак не способствует развитию каких-либо технологий напрямую. Другими словами, можно сколь угодно долго собирать корпус и выявлять частотность, но это никогда не позволит машине понять, где и почему она ошиблась.

Sadler 28 сен 2016 в 14:56

Ну ладно, раз так, пойду дальше грустно ковырять свои LSTM, свёрточные сети и прочую ерунду, которая «никогда».

Shurik_13 28 сен 2016 в 19:11

Да ну почему же :) Обязательно однажды, но точно не сейчас :)

daiver19 28 сен 2016 в 15:54

Ваше предложение не может 100-процентно трактовать ни один интеллект, кроме вашего собственного. Вы вот еще слово «коса» на английский предложите перевести без контекста.

Shurik_13 28 сен 2016 в 19:22

Вопрос не в текстовом контексте, а в семантическом. Мой собеседник почти наверняка будет знать, вернулся ли я только что с почты или закончил устанавливать драйверы. Машине же придется откуда-то брать и обрабатывать колоссальное количество информации, включая персональные данные и полный контекст ситуации.

daiver19 28 сен 2016 в 20:27

Вы просто хотите от машины решения задачи, которую ей не ставили. Задача на данный момент — перевод текста. Т.е. и машина, и человек для её решения получат одинаковый вход. Вот когда будет задача «общайся с человеком», тогда это будет справедливым аргументом.

НЛО прилетело и опубликовало эту надпись здесь

Shurik_13 28 сен 2016 в 19:18

Но как вес позволит машине определить, что наиболее тяжелое значение — верное? Корпус языка всего лишь позволяет узнать вероятность, с которой определенные слова встречаются в одном предложении. Разговорная речь полна сарказма, иронии, оксюморонов и прочих стилистических особенностей, в которых может встречаться огромное количество уникальных комбинаций слов. Это уже не говоря о референсах и цитатах, за которыми стоит гигантский культорологический контекст. Дав машине прочитать словарь вы не научите ее культуре, которую представляет язык.

НЛО прилетело и опубликовало эту надпись здесь

red75prim 29 сен 2016 в 07:32

LSTM-сети хороши тем, что они учатся создавать и использовать контекст для определения вероятности варианта перевода. Сеть сворачивает культурные особенности текста в вектор контекста. Возможно в этом векторе есть и детектор иронии. Если это не понимание, то я даже и не знаю, что можно назвать пониманием.

Конечно, современные сети не идеальны. У них нет мета-уровня. Они не умеют учиться учится, т.е. не умеют кодифицировать найденные закономерности для использования в похожих ситуациях и т.п. Но, учитывая результаты их работы, называть их тупыми числодробилками, как, например, делает некий известный лингвист, в своё время сильно помешавший развитию статистических подходов в лигвистике, становится всё тяжелее.

Shurik_13 29 сен 2016 в 07:41

Именно! Разумеется, мета-уровень и отличает машину от живого переводчика. И хотя статься содержит впечатляющие графики, на которых машина почти догнала человека, между ними все равно огромная пропасть.

Как лингвист я не верю в успех машинного перевода на текущем этапе развития, но не буду скрывать своего восхищения самой идеей обработки целых культур в виде векторов контекста.

НЛО прилетело и опубликовало эту надпись здесь

mickey99 30 сен 2016 в 13:36

У Google Translate уже есть «Варианты перевода» на уровне слова/словосочетания. Будет на уровне предложения, потом на уровне абзаца, и т.д.

potan 28 сен 2016 в 15:27

А в чем особая сложность пары английский-китайский? Я думаю пара венгерский-вьетнамский будет заметно сложнее.

tUUtiKKi13 28 сен 2016 в 16:39

Пары венгерский-вьетнамский может и не быть. В таких случаях используют буфферный язык.
То есть, например, венгерский — английский, английский — китайский.

Randl 28 сен 2016 в 17:04

Пара венгерский-вьетнамский сложна с точки зрения количества материала для обучения. Поэтому скорее всего перевод идет через английский.
Пара английский-китайский сложна именно с точки зрения разницы между языками, а материалов как раз достаточно.

potan 28 сен 2016 в 17:26

Английский и китайский оба аналитические языки, где словоформы мало употребляются. Кроме того очень много китайцев владеют английским, что может порадить достаточно большое количество легко переводимых конструкций в существующих текстах.
Угро-финские языки отличаются от китайского или вьетнамского значительно сильнее.
Я думаю, что при выборе пары все-таки руководтвовались не столько сложностью, сколько доступностью обучающей выборки.