Владимир Подольский vpodolskiy, аналитик в департаменте по работе с образованием IBS, стал редактором перевода на русский язык специализации Data Science на Coursera (в рамках совместного проекта IBS и ABBYY LS). Мы публикуем его подробный пост о трудностях перевода профессиональных текстов по тематике данных, практике работы с крауд-платформой и опыте длительной он-лайн учёбы. Напомним, что Владимир сам закончил обучение по специализации Data Science на Coursera. Мы публиковали его подробный разбор всех 9 курсеровских курсов от Университета Джонса Хопкинса (часть 1 и часть 2).
И снова здравствуй, хабр!
Coursera и прочие MOOC’и – очень занятная и затягивающая штука. Благодаря им можно многому научиться, многое узнать. Важно иметь лишь доступ к сети и не лениться. Во всей MOOC’овской истории действует то же правило, что и при написании кандидатской диссертации: «Если не готов делать каждый день по чуть-чуть, лучше вообще не принимайся». Следуя ему, можно справиться и с наукой о данных, и с введением в искусственный интеллект, и даже с квантовой физикой…
Сегодня хотелось бы рассказать об одной трудности, с которой сталкиваются при изучении открытых курсов почти по всему миру. Разумеется, эта глобальная трудность – язык. И проблема, как правило, даже не в том, что уровень знаний человека не позволяет понять, о чём говорит лектор… Дело в том, что понять отдельные англоязычные термины, не имеющие внятного аналога в русском языке, бывает очень и очень непросто. А уж про скорость речи можно и не вспоминать – как правило, преподаватели-иностранцы не делают скидку для тех, кому английский язык не родной.
Когда имеешь дело с иностранными MOOC’ами, нужно приготовиться, что большинство преподавателей будут рассказывать материал с ошеломительной скоростью реактивного самолёта. Можно, конечно, и передвинуть ползунок назад – но, поверьте, эта затея надоест минуты с третьей, и вы будете благодарить судьбу, если к видеолекциям прилагаются написанные лаконичным и доступным языком слайды, пусть и на другом языке. Особенно это актуально для тех, кто в нашей стране по каким-то причинам не смог или не стал изучать иностранный язык.
Если вы знаете иностранный и читая этот текст удивлённо пожимаете плечами… Зря. В России действительно много тех, кто не стал изучать иностранный язык, тех, кому показалось достаточно для жизни языка Пушкина и Толстого. В общем-то, и среди них немало как профессионалов, так и людей, стремящихся развиваться в каком-то выбранном направлении. И если образовательный рынок страны не предоставляет нужных материалов (благо, сейчас ситуация всё же выправляется), у человека должна быть возможность приобщиться к знаниям, произведённым за рубежом. Именно с этой целью и процветает такое направление общественной инициативы как перевод иностранных онлайн-курсов на русский язык.
Когда речь идёт о какой-то общественной инициативе, можно представить что-то кустарное, сделанное на коленке и по принципу «я же не получаю за это денег – пусть и за это скажут спасибо!». Возможно, так и было. Но сегмент общественных инициатив в России, я уверен, прошёл этот этап. И подтверждением тому служит краудсорсинговая инициатива IBS и ABBYY LS по организации перевода Data Science Specialization, которую мне и довелось не так давно освоить (посты об этом: часть 1, часть 2)
При этом роль компаний в процессе перевода, конечно, велика, но и не стоит её преувеличивать – ABBYY LS стала провайдером сервиса краудсорсингового перевода субтитров к видеолекциям, тогда как IBS поддержали это благое начинание работой своих экспертов, успешно прошедших специализацию и применяющих полученные знания в работе. Собственно, так я и оказался в числе экспертной группы, члены которой тщательно просматривают переводы краудсорсингового сообщества и склеивают их воедино, устраняя разные терминологические огрехи.
В сегодняшней статье я расскажу о том, как происходит экспертиза перевода, а также о том, как в этом процессе мне помогает платформа SmartCAT, созданная ABBYY LS. Итак, поехали!
Использование корректной терминологии
Пожалуй, самой большой проблемой при экспертизе перевода была и остаётся проблема использования корректных терминов. В принципе, проблема не такая уж серьёзная, если для переводимой области уже есть устоявшаяся терминология на русском языке. Если же такой терминологии нет, то приходится подбирать русскоязычный вариант, руководствуясь двумя критериями:
А) он не должен дублировать термины с другим определением;
Б) он должен быть максимально адекватным для интуитивного понимания другим человеком.
Пожалуй, проблема поиска корректных терминов – самая главная проблема при экспертизе перевода других участников проекта. Конечно, встречаются проблемы выстраивания корректных фраз и предложений, но они в общем-то тривиальны и скорее больше относятся к искусству написания грамотных и понятных текстов, о чём написано уже немало. Поэтому чуть подробнее остановлюсь на том, как стоит подбирать термины при переводе и экспертизе.
Первый и самый главный совет в этом деле – постараться найти и хотя бы бегло изучить соответствующую курсу литературу на русском языке. Причём не обязательно, чтобы это были солидные научные фолианты – вполне подойдут даже статьи, заметки и интервью по узкоспециальной тематике, написанные русскоязычными экспертами в этой области. Конечно, в случае журналистских работ всегда есть риск нарваться на горбатых и одноглазых «дэйтасаентистов» вместо гламурных и модных «исследователей данных». Впрочем, подобные англицизмы и жаргонизмы легко отслеживаются благодаря тому, что они стоят особняком посреди остального русскоязычного текста.
На случай, если точный термин не удалось найти в существующей литературе, можно предположить перевод термина на русский язык, после чего проверить его на адекватность при помощи поиска по профессиональным форумам и сайтам. После просмотров нескольких тематических страниц, скорее всего, удастся найти наиболее распространённый в профессиональном сообществе перевод термина. Конечно, много времени на подобные поиски не стоит тратить – если находящиеся варианты очень редки, то вряд ли их можно использовать как авторитетный источник информации.
Третий вариант состоит в том, чтобы поискать сходные термины в смежных областях знания. К примеру, для науки о данных можно смело рассчитывать на учебники по матстатистике, теории вероятностей, основам искусственного интеллекта… Главное во всех этих поисках – не закопаться. Для отдельных терминов встречается много одинаково хороших (или одинаково плохих) вариантов перевода. В этом случае я обычно выбираю один из них (как правило, наиболее точный и благозвучный) и в дальнейшем придерживаюсь его.
Если в итоге ни один из этих вариантов не сработал, то придётся рассчитывать на собственные познания и бэкграунд в соответствующей области. В конце-концов, как любят это делать аспиранты, почему бы иногда и не ввести новый термин :)?
«Умный кот» – верный помощник переводчика и эксперта
Каким бы сильным не было желание сообщества перевести курсы Coursera, вряд ли бы это удалось без качественного инструментария, предоставленного ABBYY LS. Инструмент, предоставленный ими, называется SmartCAT. Smart – умный. CAT – Кот. Я серьёзно – смотрите картинку.
Хотя нет, шучу, CAT – это аббревиатура от Computer Assisted Translation (системы помощи переводчикам). В основу CAT-систем положен принцип разбиения переводимого текста на небольшие части, по одному-двум предложениям. Каждая такая часть называется сегментом. CAT-система обрабатывает каждый сегмент двумя способами:
- машинный перевод сегмента (Machine Translation – MT) – то есть автоматический перевод сегмента согласно заданным программно алгоритмам;
- перевод с использованием памяти переводов (Translation Memory – TM) – то есть анализ сегмента на полное или частичное совпадение с уже переведёнными сегментами, содержащимися в базе.
Основной недостаток и основное же преимущество CAT-систем – участие человека в переводе. Пусть первоначальный вариант перевода подбирается автоматически, он в любом случае должен быть подтверждён человеком (переводчиком, экспертом в предметной области). Недостаток такого подхода очевиден – приходится привлекать людей к переводу и экспертной оценке переводов. Конечно, участие человека растягивает процесс перевода, что, безусловно, является негативным фактором для тех, кто хочет идти в ногу со временем и оперативно получать информацию на своём национальном языке. С другой стороны, вовлечение людей в процесс перевода имеет и явную позитивную черту – системы автоматического перевода по-прежнему уступают человеку в способности строить аккуратные и верные с семантической (смысловой) точки зрения предложения. Плюс человек способен улавливать настроения текста или речи, что позволяет ему лучше формировать перевод, так, чтобы люди могли понять фразеологизмы или даже шутки лектора.
SmartCAT от ABBYY LS – это разновидность CAT-инструментов, эдакая облачная среда, которая позволяет по максимуму автоматизировать процесс перевода. Но без фанатизма – как уже было сказано, человеку отводится ключевая роль при переводе. Хотя эта среда, конечно, продаётся фирмам и фрилансерам, я использую её исключительно в рамках краудсорсингового проекта «Переведём Coursera».
Краудсорсинговость проекта «Переведём Coursera» заключается в том, что принять участие в переводе может каждый. Вы просто регистрируетесь на сайте, выбираете интересный или близкий вам курс и начинаете его переводить при поддержке SmartCAT. Поддержка у SmartCAT широкая: тут вам и варианты машинного перевода, и переводы сходных сегментов, и встроенные словари и справочники терминов, а также всевозможные виды поиска слов, возможность прослушать аудиозапись оригинала. Разве что кофе не предлагают по утрам, но, думаю, исправят эту оплошность с новым релизом ;-)
Работа эксперта
Ну, пожалуй, это всё, что мне известно про переводческую сторону проекта. Теперь расскажу о том, что видит и делает эксперт при помощи SmartCAT. Итак, godmode ON!
При входе в систему прямо под моим именем появляется надпись «Workspace» (выделил жёлтым). Чтобы перейти к экспертизе назначенных мне переводов, я должен нажать на неё, после чего выбрать опцию Crowd Review.
После этого я попадаю на страницу со списком всех курсов, в переводе которых участвую как эксперт (см. скрин ниже). Напротив названия курса указан прогресс перевода (голубой цвет) и прогресс экспертизы (синяя полоска, догоняющая голубую). При нажатии на название курса раскрывается список видеофрагментов лекций курса, перевод субтитров к которым я экспертирую. Наверху раскрывшегося списка видеофрагментов можно заметить кнопку «Скачать» — она отвечает за скачивание исходных и переведённых файлов субтитров. Чтобы перейти непосредственно к экспертизе перевода какого-либо видеофрагмента лекции, нужно нажать на его название.
После нажатия на название видеофрагмента лекции я оказываюсь на новой странице, где и представлен весь ключевой инструментарий, предлагаемый мне SmartCAT для экспертизы перевода субтитров (см. рисунок ниже). Рассмотрим эту страницу чуть подробнее…
Изобилие элементов на странице экспертизы перевода видеофрагмента впечатляет – по моему субъективному впечатлению, наиболее удобными в процессе проведения экспертизы оказываются широкоформатные экраны. Как показала практика, каждый блок управления оказывается задействован в процессе редактуры перевода. Тут, видимо, стоит сказать спасибо разработчикам, которые убрали всё лишнее и оставили только самые необходимые элементы.
Как видим, большую часть страницы занимает окно с сегментами на английском и их переводами на русский. Нажав на кнопку с треугольником слева от английской версии сегмента, можно перейти к соответствующей части видео, чтобы послушать, что говорит лектор, и посмотреть, какие он выполняет действия – это часто помогает понять, что в действительности имеет в виду лектор, поскольку распознаватель речи, генерирующий субтитры, увы, иногда, но ошибается. Само видео отображается на вкладке в правом нижнем углу страницы.
Хотя на скриншоте уже заполнены все поля для перевода на русский, изначально они пусты. Чтобы их заполнить, нужно выбрать один из вариантов перевода, предложенный сообществом, либо взять машинный перевод, а в самом крайнем случае можно и самостоятельно перевести текст. Как правило, среди переводов сообщества оказывается какой-либо подходящий вариант. Чтобы отобразить все доступные варианты перевода сообщества для конкретного сегмента, нужно выделить его нажатием мыши. Предложенные сообществом варианты перевода отобразятся в окне внизу страницы. Вариант машинного перевода и перевода, полученного из памяти переводов, отобразится на окне CAT справа.
Если среди предложенных сообществом вариантов удалось обнаружить наиболее адекватный, то нужно нажать на соответствующую красную кнопку со стрелкой справа от варианта перевода. Выбранный таким образом вариант попадёт в окошко перевода, после чего можно поставить курсор на этот вариант в окне сегментов и начать его редактировать как обычный текст. Когда редактирование перевода окончено, требуется нажать на иконку с галочкой на панели инструментов вверху, либо комбинацию Ctrl + Enter. После этого SmartCAT считает перевод сегмента выполненным и проэкспертированным и обновляет зелёный статус-бар на самом верху страницы. При необходимости к переводу финализированного таким образом сегмента можно вернуться.
К переводу каждого сегмента предъявляется одно требование, которое не может быть нарушено (в противном случае перевод сегмента просто не удастся подтвердить). Каждый перевод должен содержать ровно столько же символов переноса строки (стрелка на голубом фоне, как на клавише Enter), сколько их содержится в оригинальном фрагменте на английском языке. Дело, по-видимому, в тайминге субтитров… Хотя это, на самом деле, не очень удобно. Очень распространены ситуации, когда английский текст оказывается длиннее его перевода за счёт всевозможных пауз и оговорок, от которых я стараюсь избавлять субтитры. В этом случае приходится как-то исхитряться, чтобы не потерять ясность изложения и уместить в небольшой перевод сегмента многочисленные переносы строки.
Помимо всего прочего, SmartCAT предоставляет эксперту возможность поместить перевод какого-либо термина в словарь курса, чтобы впоследствии переводчики могли пользоваться единым вариантом перевода. К сожалению, пока не довелось экспертировать переводы других, более поздних курсов, поэтому однозначно не могу сказать, пригодились ли кому-либо внесённые мною в словарь переводы терминов или нет…
Ещё одной очень полезной штукой в платформе SmartCAT являются словари. Они хороши тем, что дают несколько вариантов перевода и даже пояснения. Думаю, если бы я учился на переводчика, эта среда оказалась бы для меня очень полезной точки зрения изучения новых слов.
Конечно, я не стал раскрывать весь функционал SmartCAT в этой статье, но описал лишь тот, которым лично пользовался при экспертизе перевода курса Exploratory Data Analysis.
Временные затраты
Что касается затрачиваемого времени на экспертизу переводов… На самом деле всё по-разному. Затрачиваемое время в основном зависит от трёх факторов:
- длина переведённого видеофрагмента;
- сложность языка, используемого в видеофрагменте (лексика, термины и так далее);
- квалификация переводчиков.
Как правило, экспертиза фрагментов длительностью по 6-7 минут занимает от 45 минут до полутора часов, тогда как более долгие разновидности (10 минут и более) могут отнимать и по 2 часа времени. Столь большая длительность связана со многими факторами:
- наличие нескольких вариантов перевода фрагмента субтитров, из которых нужно выбрать наиболее подходящий, сравнивая с англоязычным оригиналом;
- необходимость расставить переносы в русскоязычных субтитрах;
- внесение исправлений (редактура);
- поиск адекватных вариантов терминов.
В итоге получается, что за неделю на экспертизу тратится порядка 4 часов времени, при этом «проэкспертированными» оказываются от 3 до 5 видеофрагментов длительностью в среднем по 7 минут. В курсе, экспертизу перевода которого я провожу, содержится 39 видеофрагментов разной длительности (вплоть до гиганта длиной 40 минут!). С учётом совокупной занятости, надеюсь, что с ним удастся расправиться под Новый год.
С учётом написанного, можно сделать вывод, что эксперт – это «узкое место» осуществления переводов. И это действительно так. Тем не менее, без эксперта никуда – как я уже много раз убеждался, терминологическая проблема стоит очень остро для краудсорсинговой инициативы по переводу.
Границы формализации
Почему я не стал рассказывать о том, как понять, какой перевод термина корректный, а какой – нет? Всё просто – это неформализуемая область. Я, как правило, ориентируюсь на то, что мне в тексте перевода что-то не нравится. Текст банально «не звучит». Это понимание основано на изучении соответствующей русскоязычной тематической литературы, 6 годах учёбы в МГТУ имени Баумана на инженера компьютерных систем и сетей, а также на 2 годах работы в IBS по аналитическому направлению. Конечно, при переводе узкоспециализированного текста людьми, не являющимися экспертами в этой предметной области, всегда есть риск получить некорректный перевод специальных терминов. Очень часто этот риск реализуется. Но необходимость корректуры компенсируется тем, что большая часть текста, как правило, не содержит сложных терминов, посему перевод таких фрагментов получается более чем сносным.
Вместо заключения – для чего это всё нужно?
Вопрос, озвученный выше, важен, без мотивации жить сложно :) Понятно, что экспертиза перевода даёт тем, кто изучает курсы на Coursera с русскими субтитрами – качественный перевод и внятные термины. Вопрос в том, что может дать экспертиза самому эксперту помимо чувства моральной удовлетворённости и выполненного общественного долга.
Скажу прямо, мне опыт экспертизы позволил в очередной раз окунуться в специальность «Наука о данных» – что-то всплыло в памяти, что-то лучше структурировалось в голове. Стало легче переносить на бумагу и объяснять основные процессы анализа данных. Поскольку всю специализацию я одолел на английском языке, то о русскоязычных вариантах понятий и описаний процессов анализа данных я просто не задумывался. К сожалению, погружение в англоязычные курсы даёт о себе знать – иногда в разговоре банально не получается сходу найти достойного аналога термина на русском языке. Именно получение знаний на английском языке и нежелание или неспособность их представить на русском способствуют появлению англицизмов и иных заимствованных слов в русской речи, причём с их использованием оказывается проблематичным донести информацию как до русскоязычных экспертов в этой области, так и до более широкой аудитории неспециалистов.
Можно не ходить далеко в лес – не так давно знание русскоязычной терминологии курса, которую я почерпнул в ходе экспертирования переводов, удалось применить на практике, прочитав вводную лекцию по анализу данных в МГИМО в рамках курса «Управление инновациями». Задача была осложнена тем, что МГИМО не относится к разряду инженерных вузов, поэтому материалы пришлось адаптировать и выстраивать так, чтобы даже у неподкованного в аналитике данных и математике человека сформировалось целостное представление о том, что такое анализ данных, как он в целом выполняется и для чего нужен. В этом очень помог опыт экспертизы переводов – понятийный аппарат и основные идеи для обзорно-вводной лекции удалось легко сформировать на русском. Надеюсь, что у меня получилось показать новому поколению госуправленцев, как анализ данных может быть использован для выстраивания умной и позитивной государственной политики…