Почему переводчикам не нужно бояться нейросетей Гугла / Habr

Эта заметка — большой комментарий к новости про Google Translate подключил русский язык к переводу с глубинным обучением. На первый взгляд, звучит и выглядит всё очень круто. Однако поясню, почему не стоит торопиться с выводами про «переводчики больше не нужны».

Трюк в том, что на сегодня технология способна заменить… да никого она не способна заменить.
Переводчик — это не тот, кто знает иностранный язык, так же как фотограф — это не тот, кто купил большую чёрную зеркалку. Это необходимое условие, но далеко не достаточное.

Переводчик — это тот, кто отлично знает свой язык, хорошо понимает чужой и может точно передать оттенки смысла.

Все три условия важные.

Пока мы не видим даже первую часть (в плане «знает свой язык»). Ну, по крайней мере для русского, пока всё очень и очень плохо. Вот уж что-то, а расстановка запятых отлично алгоритмизуется (Word справился году так в 1994, лицензировав алгоритм у местных), да и для нейросети имеющегося корпуса текстов ООН просто выше крыши.

Кто не в курсе, все официальные документы ООН выпускаются на пяти языках постоянных членов СовБеза, включая русский, и это самая крупная база очень качественных переводов одних и тех же текстов для данных пяти языков. В отличие от переводов художественных произведений, где «переводчика Остапа может понести», база ООН отличается точнейшей передачей тончайших оттенков смысла и идеальным соответствием литературным нормам.

Этот факт, плюс абсолютная бесплатность, делает её идеальным набором текстов (корпусом) для тренировок искусственных переводчиков, хотя она и покрывает только сугубо официально-бюрократическое подмножество языков.

Вернёмся к нашим ~~баранам~~ переводчикам. По закону Парето, 80% профессиональных переводчиков — плохие. Это люди, которые закончили курсы иностранного языка или, в лучшем случае, какой-нибудь региональный пединститут по специальности «учитель иностранного языка младших классов для сельской местности». И никаких других знаний у них нет. Иначе не сидели бы на одной из самых низкооплачиваемых работ.

Знаете, на чём они зарабатывают? Нет, не на переводах. Как правило, заказчики этих переводов понимают текст на иностранном языке лучше переводчика.

Они сидят на требованиях законодательства и/или местных обычаев.

Ну вот у нас положено, чтобы инструкция к товару была на русском. Поэтому импортёр находит человека, который немножечко знает «импортный» язык, и тот эту инструкцию переводит. Этот человек не знает товара, не имеет никаких знаний в данной области, у него было «три с минусом» по русскому, но — переводит. Результат всем известен.

Ещё хуже, если он переводит «в обратную сторону», т.е. на чужой язык (привет китайцам). Тогда его труд с большой вероятностью попадает в «баннизмы» Экслера или их местный аналог.

Или вот вам более тяжелый случай. При обращении в гос. органы с иностранными документами нужно представить перевод этих документов. Причём перевод должен быть не от дяди Васи, а от юридически уважаемой конторы, с «мокрыми» печатями и т.д. Ну вот скажите, насколько сложно «перевести» водительское удостоверение или там свидетельство о рождении? Все поля стандартизированны и пронумерованы. «Переводчику» нужно, в худшем случае, просто транслитерировать имена собственные с одного алфавита на другой. Но нет, «дядя Вася» отдыхает, причём, чаще всего, благодаря даже не закону, а просто внутренним инструкциям местных чиновных начальничков.

Обратите внимание, 80% переводческих контор живут при нотариусах. Угадайте с трёх раз, почему?

Как на этих переводчиков повлияет появление хорошего машинного перевода? Да никак. Ну т.е. есть надежда, что качество их переводов всё-таки улучшится в каких-то мелких аспектах, где есть что переводить. Ну и всё. Рабочее время здесь существенно не уменьшится, потому что они и сейчас бОльшую часть времени копируют текст из графы в графу. «В этом сыре столько-то белков, столько-то углеводов...» Национальные формы в разных странах разные, поэтому работы им меньше не станет. Особенно если не прилагать усилий.

Промежуточный вывод: для нижних 80% не изменится ничего. Они и так зарабатывают не потому что переводчики, а потому что бюрократы самого нижнего уровня.

Теперь посмотрим на противоположную часть спектра, ну пусть это будут верхние 3%.

Самый ответственный, хотя и не самый технически сложный 1%: синхронный перевод очень важных переговоров. Обычно между крупными корпорациями, но в пределе — в ООН или похожих верхах. Одна ошибка переводчика при передаче даже не смысла — эмоций, может привести, в самом худшем случае, к атомной войне. При этом, как вы понимаете, эмоциональный окрас даже совпадающих буквально фраз в разных языках может очень отличаться. Т.е. переводчик должен идеально знать оба культурных контекста своих рабочих языков. Банальные примеры — слова «негр» и «инвалид». Они почти нейтральны в русском и ярко эмоционально окрашены, вплоть до обсценности, в современном английском.

Такие переводчики могут не бояться ИИ: никто никогда не доверит такую ответственность машине.

Следующий 1% — это художественные переводчики. Ну вот у меня, например, целая полка выделена под тщательно собираемые оригинальные англоязычные издания Конана Дойля, Льюиса Кэролла, Хью Лори — в оригинале, без всяких там адаптаций и наших местных перепечаток. Чтение этих книг отлично развивает словарный запас, знаете ли, ну помимо огромного эстетического удовольствия. Я, дипломированный переводчик, могу пересказать очень близко к тексту любое предложение из этих книг. Но взяться за перевод? Увы, нет.

Я даже не заикаюсь о переводах поэзии.

Наконец, самый технически сложный (для нейросети — вообще невозможный) 1% это научно-технический перевод. Обычно, если какая-то команда в какой-то стране вырвалась вперёд в своей области, они называют свои открытия и изобретения на своём языке. Может так оказаться, что в другой стране другая команда независимо изобрела/открыла то же самое. Так появились, например, законы Бойля-Мариотта, Менделеева-Пуассона и споры на тему Попов / Маркони, Можайский / братья Райт / Сантос-Дюмон.

Но если иностранная команда «совсем ускакала» вперёд, у «догоняющих» учёных есть два варианта в лингвистическом смысле: калькировать или переводить.

Калькировать названия новых технологий, конечно, проще. Именно так в русском появились алгебра, медицина и компьютер, во французском — bistro, datcha и vodka; в английском — sputnik, tokamak и perestroika.

Но иногда всё-таки переводят. Голос гуманитария в моей голове дико прётся от термина тачсота для обозначения аргумента преобразования Фурье от преобразования Фурье, как перевод для querquency. Шутки в сторону, таких терминов нет в гугле — но у меня есть бумажный учебник по цифровой обработке сигналов, одобренный и освящённый минобром, в котором эти термины есть.

И да, анализ тачсоты — это единственный (известный мне) способ отличить мужской голос от женского. Варианты?

Я к чему клоню: этим людям нечего бояться, потому что они сами формируют язык, вводят в него новые слова и термины. Нейросети всего лишь учатся на их решениях. Ну, не забывая тот факт, что эти учёные и инженеры не на переводах зарабатывают.

Ну и, наконец, «средний класс», хорошие профессиональные переводчики, но не топы. С одной стороны, они ещё защищены бюрократией — переводят, например, инструкции, но уже не к гомеопатическим бадам, а, допустим, к нормальным лекарствам или там станкам. С другой стороны — это уже сегодня современные работники с высокой автоматизацией труда. Их работа уже сейчас начинается с составления «словарика» терминов, чтобы перевод был единообразен, а дальше, по сути, состоит в редактировании текста в специализированном софте типа trados. Нейросети уменьшат количество необходимых правок и увеличат производительность труда, но принципиально ничего не изменят.

Итого, слухи о скорой смерти профессии обычного переводчика немного преувеличены. На всех уровнях немного ускорится работа и немного увеличится конкуренция, но — ничего необычного.

А вот кому достанется — так это переводчикам-журналистам. Ещё 10 лет назад они могли спокойно сослаться на англоязычную статью, из которой ничего не поняли, и написать полный бред. Сегодня тоже пытаются, но знающие английский читатели их раз за разом макают в… ну вы поняли.

В-общем, их время прошло. С универсальным машинным переводчиком среднего уровня, пусть и немного корявым, «журналисты» типа alizar или ragequit становятся просто безработными.

Почему переводчикам не нужно бояться нейросетей Гугла

{{ titleHtml }}

{{ titleHtml }}