Приходят гости, говорят всякое роботам, всем весело.
Вспоминается говорящая рыба из магазина на диване 90-х, которую можно было повесить на стену в гостинной… Приходили гости, она смешно крутила головой и хвостом, всем было весело ;)
Каким должен быть контекст у скороговорки? Сам факт того, что это скороговорка — уже культурологический контекст. Если некоторые люди и с этим плохо справляются, то не надо таким людям заниматься переводом вообще.
Он не был гражданином Китая (или, например, Индонезии). Мы используем целый ряд разных названий для людей, работающих в космосе, чтобы подчеркнуть их происхождение и национальность. Таким образом, мы можем написать «китайский космонавт» или заменить более простым и емким «тайконавт». Полный список есть в Вики на странице «Космонавт» (https://ru.wikipedia.org/wiki/Космонавт)
Именно! Разумеется, мета-уровень и отличает машину от живого переводчика. И хотя статься содержит впечатляющие графики, на которых машина почти догнала человека, между ними все равно огромная пропасть.
Как лингвист я не верю в успех машинного перевода на текущем этапе развития, но не буду скрывать своего восхищения самой идеей обработки целых культур в виде векторов контекста.
Вопрос не в текстовом контексте, а в семантическом. Мой собеседник почти наверняка будет знать, вернулся ли я только что с почты или закончил устанавливать драйверы. Машине же придется откуда-то брать и обрабатывать колоссальное количество информации, включая персональные данные и полный контекст ситуации.
Но как вес позволит машине определить, что наиболее тяжелое значение — верное? Корпус языка всего лишь позволяет узнать вероятность, с которой определенные слова встречаются в одном предложении. Разговорная речь полна сарказма, иронии, оксюморонов и прочих стилистических особенностей, в которых может встречаться огромное количество уникальных комбинаций слов. Это уже не говоря о референсах и цитатах, за которыми стоит гигантский культорологический контекст. Дав машине прочитать словарь вы не научите ее культуре, которую представляет язык.
Но вы прекрасно можете воспринять и учесть оттенок и оценку, которую я вкладываю в свой комментарий. Вы прекрасно понимаете, что я негодую и отрицаю успех сабжа, хотя мой комментарий начинается с двух простых и не самых эмоциональных, но риторических вопросов.
Word2vec — правильное направление развития. В лингвистике это называется корпусом языка и позволяет всего лишь фиксировать состояние языка, но никак не способствует развитию каких-либо технологий напрямую. Другими словами, можно сколь угодно долго собирать корпус и выявлять частотность, но это никогда не позволит машине понять, где и почему она ошиблась.
<...> учитывая вес каждого фрагмента в оригинальном тексте
Ну и как же компьютер способен «взвесить» этот самый фрагмент? Откуда машина берет семантическую составляющую?
Еще ладно книги и документы, но если мы говорим о переводе разговорной речи (особенно устной), о какой точности может идти речь, если абсолютно большая часть информации — это невербальные признаки (интонация, жесты, мимика, поза, расстояние, громкость). Разумеется нужны дополнительные «каналы входящей информации», но нужны алгоритмы намного более сложные чем те, которые отличают кошек от хлеба на картинках.
Пойду дальше распечатывать письма от моих друзей, а Google Translate пускай пока решит — ножом или на принтере.
Нюрнбергский процесс был ключевым событием не столько в связи с немецким языком, сколько в связи с тем, что на нем был впервые организован синхронный перевод между 4 языками с использованием наушников. Насколько я помню, для каждой пары языков подбирались отдельные переводчики, и я был удивлен прочитать в обсуждаемой статье о том, что выбранный язык может переводиться, скажем, сперва на русский, а уже с русского — на любое количество других языков. Безусловно, это очень находчивое решение, но могу предположить, что погрешность перевода в таком случае может быть очень существенной и даже критической, если переводчик второго «уровня» не имеет возможность ознакомиться с оригиналом.
Очень хороший вопрос. Мой собственный опыт с пинхолами подсказывает, что SLO — далеко не самый оптимальный аппарат. Хотя бы потому, что решение с затвором приводит к тому, что экспозиция в центре кадра длится в разы дольше, чем по краям.
Очевидно, был изменени лидинг — увеличено расстрояние между символами. Таким образом строка получилась длиннее. Это очень распротраненный прием при верстке печатных изданий, не понимаю, что в нем магического…
Вспоминается говорящая рыба из магазина на диване 90-х, которую можно было повесить на стену в гостинной… Приходили гости, она смешно крутила головой и хвостом, всем было весело ;)
Как лингвист я не верю в успех машинного перевода на текущем этапе развития, но не буду скрывать своего восхищения самой идеей обработки целых культур в виде векторов контекста.
Word2vec — правильное направление развития. В лингвистике это называется корпусом языка и позволяет всего лишь фиксировать состояние языка, но никак не способствует развитию каких-либо технологий напрямую. Другими словами, можно сколь угодно долго собирать корпус и выявлять частотность, но это никогда не позволит машине понять, где и почему она ошиблась.
Ну и как же компьютер способен «взвесить» этот самый фрагмент? Откуда машина берет семантическую составляющую?
Еще ладно книги и документы, но если мы говорим о переводе разговорной речи (особенно устной), о какой точности может идти речь, если абсолютно большая часть информации — это невербальные признаки (интонация, жесты, мимика, поза, расстояние, громкость). Разумеется нужны дополнительные «каналы входящей информации», но нужны алгоритмы намного более сложные чем те, которые отличают кошек от хлеба на картинках.
Пойду дальше распечатывать письма от моих друзей, а Google Translate пускай пока решит — ножом или на принтере.