Почему переводчикам не нужно бояться нейросетей Гугла
Эта заметка — большой комментарий к новости про Google Translate подключил русский язык к переводу с глубинным обучением. На первый взгляд, звучит и выглядит всё очень круто. Однако поясню, почему не стоит торопиться с выводами про «переводчики больше не нужны».
Трюк в том, что на сегодня технология способна заменить… да никого она не способна заменить.
Переводчик — это не тот, кто знает иностранный язык, так же как фотограф — это не тот, кто купил большую чёрную зеркалку. Это необходимое условие, но далеко не достаточное.
Переводчик — это тот, кто отлично знает свой язык, хорошо понимает чужой и может точно передать оттенки смысла.
Все три условия важные.
Пока мы не видим даже первую часть (в плане «знает свой язык»). Ну, по крайней мере для русского, пока всё очень и очень плохо. Вот уж что-то, а расстановка запятых отлично алгоритмизуется (Word справился году так в 1994, лицензировав алгоритм у местных), да и для нейросети имеющегося корпуса текстов ООН просто выше крыши.
Кто не в курсе, все официальные документы ООН выпускаются на пяти языках постоянных членов СовБеза, включая русский, и это самая крупная база очень качественных переводов одних и тех же текстов для данных пяти языков. В отличие от переводов художественных произведений, где «переводчика Остапа может понести», база ООН отличается точнейшей передачей тончайших оттенков смысла и идеальным соответствием литературным нормам.
Этот факт, плюс абсолютная бесплатность, делает её идеальным набором текстов (корпусом) для тренировок искусственных переводчиков, хотя она и покрывает только сугубо официально-бюрократическое подмножество языков.
Вернёмся к нашим
Знаете, на чём они зарабатывают? Нет, не на переводах. Как правило, заказчики этих переводов понимают текст на иностранном языке лучше переводчика.
Они сидят на требованиях законодательства и/или местных обычаев.
Ну вот у нас положено, чтобы инструкция к товару была на русском. Поэтому импортёр находит человека, который немножечко знает «импортный» язык, и тот эту инструкцию переводит. Этот человек не знает товара, не имеет никаких знаний в данной области, у него было «три с минусом» по русскому, но — переводит. Результат всем известен.
Ещё хуже, если он переводит «в обратную сторону», т.е. на чужой язык (привет китайцам). Тогда его труд с большой вероятностью попадает в «баннизмы» Экслера или их местный аналог.
Или вот вам более тяжелый случай. При обращении в гос. органы с иностранными документами нужно представить перевод этих документов. Причём перевод должен быть не от дяди Васи, а от юридически уважаемой конторы, с «мокрыми» печатями и т.д. Ну вот скажите, насколько сложно «перевести» водительское удостоверение или там свидетельство о рождении? Все поля стандартизированны и пронумерованы. «Переводчику» нужно, в худшем случае, просто транслитерировать имена собственные с одного алфавита на другой. Но нет, «дядя Вася» отдыхает, причём, чаще всего, благодаря даже не закону, а просто внутренним инструкциям местных чиновных начальничков.
Обратите внимание, 80% переводческих контор живут при нотариусах. Угадайте с трёх раз, почему?
Как на этих переводчиков повлияет появление хорошего машинного перевода? Да никак. Ну т.е. есть надежда, что качество их переводов всё-таки улучшится в каких-то мелких аспектах, где есть что переводить. Ну и всё. Рабочее время здесь существенно не уменьшится, потому что они и сейчас бОльшую часть времени копируют текст из графы в графу. «В этом сыре столько-то белков, столько-то углеводов...» Национальные формы в разных странах разные, поэтому работы им меньше не станет. Особенно если не прилагать усилий.
Промежуточный вывод: для нижних 80% не изменится ничего. Они и так зарабатывают не потому что переводчики, а потому что бюрократы самого нижнего уровня.
Теперь посмотрим на противоположную часть спектра, ну пусть это будут верхние 3%.
Самый ответственный, хотя и не самый технически сложный 1%: синхронный перевод очень важных переговоров. Обычно между крупными корпорациями, но в пределе — в ООН или похожих верхах. Одна ошибка переводчика при передаче даже не смысла — эмоций, может привести, в самом худшем случае, к атомной войне. При этом, как вы понимаете, эмоциональный окрас даже совпадающих буквально фраз в разных языках может очень отличаться. Т.е. переводчик должен идеально знать оба культурных контекста своих рабочих языков. Банальные примеры — слова «негр» и «инвалид». Они почти нейтральны в русском и ярко эмоционально окрашены, вплоть до обсценности, в современном английском.
Такие переводчики могут не бояться ИИ: никто никогда не доверит такую ответственность машине.
Следующий 1% — это художественные переводчики. Ну вот у меня, например, целая полка выделена под тщательно собираемые оригинальные англоязычные издания Конана Дойля, Льюиса Кэролла, Хью Лори — в оригинале, без всяких там адаптаций и наших местных перепечаток. Чтение этих книг отлично развивает словарный запас, знаете ли, ну помимо огромного эстетического удовольствия. Я, дипломированный переводчик, могу пересказать очень близко к тексту любое предложение из этих книг. Но взяться за перевод? Увы, нет.
Я даже не заикаюсь о переводах поэзии.
Наконец, самый технически сложный (для нейросети — вообще невозможный) 1% это научно-технический перевод. Обычно, если какая-то команда в какой-то стране вырвалась вперёд в своей области, они называют свои открытия и изобретения на своём языке. Может так оказаться, что в другой стране другая команда независимо изобрела/открыла то же самое. Так появились, например, законы Бойля-Мариотта, Менделеева-Пуассона и споры на тему Попов / Маркони, Можайский / братья Райт / Сантос-Дюмон.
Но если иностранная команда «совсем ускакала» вперёд, у «догоняющих» учёных есть два варианта в лингвистическом смысле: калькировать или переводить.
Калькировать названия новых технологий, конечно, проще. Именно так в русском появились алгебра, медицина и компьютер, во французском — bistro, datcha и vodka; в английском — sputnik, tokamak и perestroika.
Но иногда всё-таки переводят. Голос гуманитария в моей голове дико прётся от термина тачсота для обозначения аргумента преобразования Фурье от преобразования Фурье, как перевод для querquency. Шутки в сторону, таких терминов нет в гугле — но у меня есть бумажный учебник по цифровой обработке сигналов, одобренный и освящённый минобром, в котором эти термины есть.
И да, анализ тачсоты — это единственный (известный мне) способ отличить мужской голос от женского. Варианты?
Я к чему клоню: этим людям нечего бояться, потому что они сами формируют язык, вводят в него новые слова и термины. Нейросети всего лишь учатся на их решениях. Ну, не забывая тот факт, что эти учёные и инженеры не на переводах зарабатывают.
Ну и, наконец, «средний класс», хорошие профессиональные переводчики, но не топы. С одной стороны, они ещё защищены бюрократией — переводят, например, инструкции, но уже не к гомеопатическим бадам, а, допустим, к нормальным лекарствам или там станкам. С другой стороны — это уже сегодня современные работники с высокой автоматизацией труда. Их работа уже сейчас начинается с составления «словарика» терминов, чтобы перевод был единообразен, а дальше, по сути, состоит в редактировании текста в специализированном софте типа trados. Нейросети уменьшат количество необходимых правок и увеличат производительность труда, но принципиально ничего не изменят.
Итого, слухи о скорой смерти профессии обычного переводчика немного преувеличены. На всех уровнях немного ускорится работа и немного увеличится конкуренция, но — ничего необычного.
А вот кому достанется — так это переводчикам-журналистам. Ещё 10 лет назад они могли спокойно сослаться на англоязычную статью, из которой ничего не поняли, и написать полный бред. Сегодня тоже пытаются, но знающие английский читатели их раз за разом макают в… ну вы поняли.
В-общем, их время прошло. С универсальным машинным переводчиком среднего уровня, пусть и немного корявым, «журналисты» типа alizar или ragequit становятся просто безработными.