Комментарии 164
«Masha was on the highway and sucked drying.»
Still bad, Google…
Почему гугловский надмозг посчитал факт хотьбы слишком ничтожным чтобы доносить его до англоговорящего читателя?
Нейросеть всё как раз хорошо поняла.
В настоящее время GNMT в google translate применяется (да и то, насколько я понял, ограниченно) только для пары английский-китайский. Все остальные пары (уж русский-английский — точно) переводятся старым недобрым статистическим переводчиком.
До этой статьи считал, что дело непосредственно в сложности великого и могучего, а теперь склонен полагать, что дело именно в нейросетях.
Вполне возможно, что этот смысл и был принят.
Но ведь они претендуют на гораздо большее, чем словарный перевод с выбором самого частотного значения. Словосочетание “сосать сушку» почти однозначно указывает на то, что сушка — это что-то, что можно положить в рот. Я уж не говорю о том, что это очень известная скороговорка, и после слов «Шла Саша» смысл всех остальных слов устанавливается однозначно.
Mowed oblique oblique oblique
Barely, spruce spruce firs
Ели — деревья
ели — Поглощали пищу
елей — Смола какого то дерева используется в христианском богослужении для воскуривания…
точно также он не переводит
«buffalo buffalo buffalo buffalo ...»
Шёл Шива по шоссе, сокрушая сущее,
а навстречу Саша шла, круглое сосущая.
Siva went along the highway, smashing things,
and meet Sasha was circular suction.
Сушка. Сушка и картошка. Картошки и сушки.
Drying. Drying and potatoes. Potatoes and dried (мало того, что глагол, ещё и в прошедшем).
Пять картошек и сушка. Пять картошек и сушек. Я съел пять сушек.
Five potatoes and drying. Five potatoes and crackers. I ate five dryers («я съел пять сушильных аппаратов»?!).
Хотя в процессе пыток он один раз проговорился (crackers, хотя sushki правильнее судя по Вики). Это либо влияние подсказок пользователей, либо… Google Translate на самом деле знает, что сушки могут быть едой, а разработчики много лет на работе занимаются имитацией бурной деятельности.
Слово suck употребляется так: x1 (thing) sucks x2 (thing). Drying — это не вещь, а процесс (нельзя потрогать), следовательно нужно выбирать cracker (а лучше sushki).
Вот так Google Translate переводит примитивные предложения:
Пряники хочу! Купи пряники, морковь и лук.
Gingerbread want! Buy carrots, carrots and onions.
Птица и собака. Я вижу птицу, собаку. Птица с собакой видят меня.
Bird and dog. I see a bird dog (птичья собака). Bird dog see me.
Лук красивый. Я люблю лук вкусный. Я люблю лук. Я люблю свой лук.
Onions beautiful. I love onion delicious. I love the onion. I love his bow.
Артикли забывает, путает; после существительного пишет прилагательное; предложение не влияет на другие предложения; путает морковку с пряниками (Из-за «кнут и пряник»/«carrot and stick»? Но ведь идиомы употребляются цельными).
Как будто программа, которая преобразует промежуточный язык в разговорный язык, находится в версии 0.0.1.
Я люблю свой лук.
I love his bow.
Гугл ещё и смысл меняет (his — его)
Google ещё хорошо выкрутился…
Masha walked along the highway and sucked dry
Прошло 6 лет
Большой медицинский словарь. 2000.
Немецкий — Kniekehle.
Французский — jarret.
Испанский — rótula.
В английском два: knee pit. На латыни тоже.
И, да! В русском есть одним словом: подколенок или подколенка.
Какие можно сделать выводы?
Возникло чувство «замусоривания» его словарей.
Я слышал в трех вариантах:
1. основное, из этого выражения — как что-то что надо преодолеть («через тернии к первому дивизиону»)
2. Как символ враждебного отношения общества («можно, конечно, напускать на себя высокомерие и сверхутонченность, но тернии от этого не перестанут впиваться – острые, ядовитые…» — это цитата из Набокова, но я знаю одну мадам, которая частично эту фразу цитировала в речи, так что считается за повседневную речь)
3. Вместо слова «терновник», как синоним слова «сорняк».
Кто был тем первым переводчиком?
-Говоришь на гугловском? (rus)
-Do you speak google? (eng)
-Go google goo? (google)
А тема хорошая. Возможно, все забудут сарказм «google translate» применявшийся к некоторым плохо переведённым статейкам на хабре ))
Эта технология работает всего лишь с какой-то вероятностью и всегда может и будет допускать ошибки.
Он не AI, а нейронка, а значит тупо функция конвертации согласно весу слова… 1 шаг от Байзанова фильтра.
Для перевода нужен AI, с пониманием контекста.
Как в примере выше «шла Саша по шоссе и сосала сушку» методом подбора можно перевести, также можно запомнить наизусть, однако чтобы переводить и в дальнейшем предложения верно, нужно понять контекст. «Вася — молодца — улетел на сушке, а я на старой тушке перепердыхал в ближайший аэропорт» уже не реально понять ни тому кто заучил наизусть, ни тому кто будет переводить методом подбора. Уж простите за не классический пример.
Только AI, только хардкор. Только знание окружающей среды и воспитание, а не тупое заучивание.
В любом случае контекст очень важен. Nailed It может значить кучу вещей в одном и том же коллективе, в одном и том же разговоре при одной и той же тематике разговора.
Напомнило эпизод из Star Trek: TNG, где была раса, чей язык полностью состоял из метафор и отсылок к истории/мифам/легендам. Универсальный переводчик не мог проанализировать этот язык.
«Вася — молодца — улетел на сушке, а я на старой тушке перепердыхал в ближайший аэропорт»
Вот этот мусор вообще не нужен. Функция языка — кодирование смысла. А здесь налицо сознательное искажение. Одна из ключевых проблем человечества — низкий уровень интеллекта среднего человека, ну а так как язык и сознание тесно связаны, стоит применять почаще простую, структурированную, логично выверенную речь. И популяризировать ее.
P.S. "Тупо" — частенько это соблюдение шаблона, сделанного более грамотными людьми…, от армейского устава до чек-листа в Макдональдсе. Один из способов встроить обезьян, мнящих себя уникальными личностями в эффективную систему.
Это при том что я вообще использовал литературно описательный текст с упрощениями и абстракциями, а не свободную речь.
Важно что Вы поняли, а переводчик нашего времени никогда ни при каких обстоятельствах не поймет и не переведет, если только не запомнит всю конкретную фразу и на следующей подобной фразе будет опять асоциальным аутистом.
коммуникативная (передача информации),
познавательная (определяет и процесс, и результат познания человеком окружающего мира),
номинативная (дает названия предметам и явлениям окружающего мира),
аккумулятивная (является хранилищем знаний и опыта языкового коллектива)
Любая лингвистическая функция описывается именно как метод передачи информации.
Коммуникативная — передача данных.
Познавательная — опять же передача данных.
Номинативная — куда уже более — передача данных. Сам язык этого не делает — это делает его использующий субъект — передача данных.
Аккумулятивная — encoding? данные в данных? передача данных.
Скажем так я смотрю с транспортного уровня, а не того что там уже на 7 уровне накрутили.
С технической точки зрения это действительно так. Но язык — не техническое явление.
Коммуникативная — передача данных.
Верно в значительной степени
Познавательная — опять же передача данных.
Верно в незначительной степени. Процесс познания не ограничивается, скажем, чтением. Это в первую очередь восприятие внеязыковых образов, которые подсознание впоследствии использует прямо так, без кодирования, а сознание использовать не может, не закодировав в языке (см. ниже). А как происходит это кодирование и чем первичный образ отличается от закодированного и готового к передаче другим людям — этого (пока) никто не знает. А еще первичный образ постоянно меняется (причем иногда рандомно и непредсказуемо), а его закодированная форма (упрощенно будем считать, что это слово) — нет.
Номинативная — куда уже более — передача данных. Сам язык этого не делает — это делает его использующий субъект — передача данных.
В Вашей терминологии это скорее генерирование данных, нежели передача. Представьте, что Вы один на земле, и Вам некому передать данные. Вы все равно станете как-то называть предметы и явления окружающего мира. По каким правилам будут формироваться эти названия? А никто не знает.
Аккумулятивная — encoding? данные в данных? передача данных.
Верно в незначительной степени. Разве интернет существует только для передачи данных? Каждый раз, когда вы формируете сообщение для передачи (исполнения коммуникативной функции языка), немалая его часть передается не в виде данных, а в виде «ссылки на данные,» которые — Вы при кодировании делаете такое допущение, зачастую неправильное — имеют одинаковое значение как для Вас, так и для Вашего собеседника. Функция языка в данном случае — синхронизация результатов номинативной и познавательной функций языка у разных людей (которые зависят в первую очередь не от языкового, а от чувственного опыта, то есть сугубо индивидуальны), чтобы можно было при общении оперировать ссылками. Если тут и есть передача данных, то это сугубо служебный процесс.
Правда меня пугает ваше желание встроить всех в «эффективную систему».
Ассоциативный массив, где указано что с
сушка = хлебобулочное изделие = чаще применяются слова: грызть, сосать, мука, баранка и т.д.
сушка = процесс сушения = чаще применяются слова: одежды, обуви, мышц и т.д.
сушка = самолёт Су = чаще применяются слова: пилот, МИГ, аэродром и т.д.
Перемножать веса в зависимости от частоты употребления слова в целом, коэффициентов слов, стоящих рядом, их удалённости от искомого слова в предложении.
Но именно нейросеть является лучшим инструментом для создания таких множественных связей в гигантском массиве. Кто занимается анализом данных, поправьте, я не специалист.
Вот так поставишь человеку задачу, а он всё сделает по-другому. «Ой, а я не так понял!».
«Эти типы стали есть на складе» — вот какой здесь смысл? То-то же!
Но суть от этого не меняется. Всё правильно в гугле думают. В нейросети образовался некий праязык. Да, он без букв, слов и фонем, скорее всего пока неидеален, но это можно исправить, прикрутить идеальное словобразование и звуковую модель. И это поле для прорывов в лингвистике.
Как было выше описано, очень интересно найти белые пятна различных языков, т.е. те концепты, которые на конкретных языках не описываются (или очень плохо описываются).
Ожидаю серию работ по синтезу «Эсперанто-XXI».
А про машинный перевод — очень хочется посмотреть, как оно будет игру слов переводить…
Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.
Ситуация: нет пары «русский⇄белорусский», но есть пары «русский⇄украинский» и «украинский⇄белорусский». Судя по примеру, украинский используется в качестве связующего звена при переводе, но это немного некорректно.
Более корректно примерно так: пара «русский⇄белорусский» напрямую не обучалась, но пары «русский⇄украинский» и «украинский⇄белорусский» обучались, и есть некий результат в виде «русский⇄универсальный язык⇄украинский», «украинский⇄универсальный язык⇄белорусский». Для получения перевода используется связка «русский⇄универсальный язык⇄белорусский», которую можно получить без обучения конкретной пары языков.
Давайте рассмотрим слово ПЕЧКА
ПЕЧКА — смысл — обогрев
ПЕЧКА суть — преобразование энергии
ПЕЧКА Ассоциации кирпичная печка (печка в машине)
и так далее про ПЕЧКУ как способ выпекания
и т.д. можно фантазировать
так долго ждали этого, ага ждали
следующий этап деградации, наступил
грубо говоря возможно ли что в одном языке будет упоминаться одна страна, а в переводе другая?
медленно, но возможно ключевые участки будет иметь определенный смысл.
гугл легко переводит текст с картинок, попробуйте переводчик на смартфоне или планшете, заодно можно увидеть пульсацию нейросети, когда слово меняется.
Ах, у ели, ах, у ёлки, ах, у ели злые волки
_____
Ah, fir, ah, at the trees, ah, evil wolves have eaten
Часово — жиркие товы.
И джикали, и джакали в исходе.
Все тенали бороговы.
И гуко свитали оводи.
или
Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.
https://s-media-cache-ak0.pinimg.com/originals/1a/60/e3/1a60e356d1afd88ec0f3e5f9bc2e2d01.jpg
:facepalm:
А если на самом деле — то вот что непонятно. В распоряжении гугла же куча корректно сделанных переводов кучи классических текстов мировой литературы. Распарсить, поставить в соответствие — и уже с этим вполне можно делать неплохие переводы, кмк… Понятно, что не так просто — но должно работать…
Читайте мой комментарий ниже
Простите :)
Давно-о уже.
Вот что значит использовать в качестве промежуточного языка самый для этого неприспособленный.
Но, если добавить слово «выпечка», вот так «Печка пряников. Выпечка.», то перевод стразу же исправляется «Baking gingerbread. Bakery products.»
https://translate.google.com/#ru/hr/петух
Давно-о уже.
Вот что значит использовать в качестве промежуточного языка самый для этого неприспособленный.
Добавь контекст «петух летит» и получишь более корректный перевод.
«У него живет большой петух, петух летит, петух летает, петух поёт.» →
«On živi veliki penis, penis leti, leti kurac, penis pjeva.»
1 kurac из 4-х возможных. Запятые не зря, слова с заглавной буквы Гугл не понимает:
«У него живет большой петух. Петух летит. Петух летает. Петух поёт.» →
«On živi veliki penis. Cock muhe. Cock muhe. Rooster pjeva.»
Английские слова знает, а как написать их с большой буквы в другом языке: увы! В просмотренных текстах как-то не оказалось…
а можно ли эту систему использовать для перефразирования готового текста:
1. допустим я читают научную статью и не обладаю всеми знаниями, нажимаю волшебную кнопку и все непонятные слова, словосочетания, выражения переводятся в «нормальный» язык.
2. или такое, скачал студент реферат из интернета, нажимает волшебную кнопку и весь реферат был перефразирован так что смысл остался тем же, а слова другие.
3. толстая книга, на 900 страниц. читать нет ни времени ни желания. нажал волшебную кнопку и тут на 50 страницах, вкратце весь смысл. или наоборот. написал короткую заметку а нужна целая статья.
Вообще задача аннотирования или реферирования в машинном обучении существует уже лет 50, но считается что она требует сильного ИИI. Без способности работать со смыслом такие системы будут всегда переводить довольно грубо.
согласно https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/ с 15 ноября эта технология используется в Google Translate для восьми языковых пар: между английским и «French, German, Spanish, Portuguese, Chinese, Japanese, Korean and Turkish».
К примеру как он переводит простые предложения:
Он закроет окно. Он закроет окно?
He closes the window. He will close the window?
Uno no es lo que es por lo que escribe, sine por lo que ha leido.
он переводит на английский так
One is not what he is for what he writes, sine for what he has read.
Он закроет окно. Он закроет окно?
He'll close the window. Will he close the window?
1. Сами авторы в работе ничего про универсальный язык не утверждают. Пишут, что есть hints, early evidence и прочее. Если вчитаться в работу, они сами пока не очень поняли, с чем столкнулись, и пишут самое, на их взгляд, очевидное.
2. Качество перевода они оценивают по шкале BLEU, которая а) плохо работает на маленьких выборках, б) относительна сама по себе («how's your wife?» — «compared to what?»). И все приросты, указанные в таблицах — в пределах погрешности. То есть суждение авторов о качестве выполненных переводов как минимум неоднозначное.
К авторам претензий никаких: они, видимо, решают задачу дать хоть какое-то качество переводам на редкие языки, для которых все пары с общераспространенными языками, хоть тресни, не наработаешь. К чему тут разговоры о языке человечества, ума не приложу. О доме надо думать ).
Есть ещё чему поучиться ИИ
«Не заметив, что на мосту, где было совершенно темно, шоссе, давно требующее починки, о которой некому было позаботиться, размыто дождями, в этих местах почти не прекращающимися, покрыто выбоинами, заполненными, о чем было нетрудно догадаться, густой грязью, завалено мусором, велосипедист, как мешок с картошкой, со всего маху свалился в яму.»
Вот его Гуглтранслейт:
Not noticing that on the bridge, where it was completely dark, highway, long time requiring repair, about which there was no one to take care, blurry rain in these areas almost does not stop, covered with potholes, filled, as it was easy to guess the thick mud, littered with garbage cyclist like a sack of potatoes, with all the fluff fell into the pit.
Замечаем, что переводит последовательно, не понимая смысла и не извлекая главную смысловую группу.
А вот, перевод на техническом сайте IKnowww.ru http://mentalogy-ru.1gb.ru/trans:
Cyclist, like bag with potatoes, with full fluff has fallen down into pit, not noticing, that on bridge, where it was completely dark, highway, for long time requiring repaire, for which was no one to take care off, blurred by rains, in these places almost not ending, covered with potholes, filled, about what was not difficult to guess, by thick dirt, littered with garbage.
Вполне сносный перевод, да и смысловую группу ставит во главу угла.
Может, Гуглу стоит объединиться с Айноу?
А может, не стоит?
А Айноу переводит так:
Sasha went on highway, and sucked bagel.
Он закроет окно. Он закроет окно?
He close window. He close window?
А вот как переводит переводчик translator.microsoft.com/neural
Шла Саша по шоссе и сосала сушку.
Sasha was walking on the highway and sucked drying
Аналогично, чтобы получить какие-нибудь значащие иероглифы, переводите с английского на китайский. Таким образом я ищу на тао. Если переводить с русского на китайский — получите полный шлак, только Вы об этом даже не узнаете :)
Означает ли это, что «универсальный язык» на котором «думает всё человечество» — английский?
«Йя так не думайу» (L).
Такое ощущение что гугл просто обрезает слово до корня и теряет драгоценную информацию.
Вот пример, где гугл не понимает родительный падеж (а это самый распространенный после именительного)
хотя с английского переводит хорошо
https://translate.google.com/?hl=ru#pl/ru/Man's%20hat
а обратно уже нет
https://translate.google.com/?hl=ru#ru/pl/%D1%88%D0%BB%D1%8F%D0%BF%D0%B0%20%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0
перевод польский-русский и обратно вообще не понимает
https://translate.google.com/?hl=ru#ru/pl/%D0%A8%D0%B0%D0%BF%D0%BA%D0%B0%20%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0
https://translate.google.com/?hl=ru#pl/ru/czapka%20cz%C5%82owieka
Румынский правильно переводит используя родительный (у них это дательный падеж)
https://translate.google.com/?hl=ru#auto/ro/man's%20hat
Обратно уже нет
https://translate.google.com/?hl=ru#auto/en/p%C4%83l%C4%83ria%20omului
Т.е. гугл типичный словарь только для перевода с английского, т.е. моно-движек, и например синтетические языки переводит хуже чем Яндекс Транслейта.
Это легко объяснить, т.к. гугл транслейт видимо был создан англоязычными людьми, для которых английский был родным и единственным, а как мы знаем, английский язык аналитический, то русский синтетический. Т.е. в первом варианте смысл передается положением слов или предлогов, а во втором окончаниями.
Т.е. если верить автору этой статьи, тогда и я верю, что некоего промежуточного языка вполне хватает для описания и русского и английского языка, но гугл зачем тогда гугл так легко отбрасывает нужную информацию? шляпа (им. падеж) человека (род. падеж)
Т.е. где-то просто рокет-саенс, а где-то каменный век. Тогда, если честно, слабо верится в статью, что гугл сделал какой-то прорыв. Думаю лучше всего спросить программистов Яндекс Транслейта, у них перевод синтетических языков явно лучше.
http://www.commonsenseadvisory.com/default.aspx?Contenttype=ArticleDetAD&tabID=63&Aid=37210&moduleId=390
Google просто пропиарились удачнее.
Тем временем, тесты показывают, что на текущем уровне машинный перевод на основе нейросетей лишь немногим лучше хороших движков на основе технологии предыдущего поколения, Statistical Machine Translation.
https://slator.com/academia/4000-lines-code-harvard-hopes-will-change-translation/
Особенно движка статистического машинного перевода с хорошей «заточкой», специализацией. Преимущество NMT в том, что он быстрее и на меньшем объеме входных данных создает достаточно качественный продукт. Это очень важно для редких языков и узкой специализации.
По какой-то причине знание посторонних языков помогает нейросети более качественно переводить с данного конкретного языка.
Может быть это потому, что язык нам нужен, чтобы описывать окружающую нас реальность?? :)
А она у нас одна, вне зависимости от языка…
Нейросеть Google Translate составила единую базу смыслов человеческих слов