Языковой квест на просторах распознавания речи
Полгода назад я стала техническим писателем в научно-исследовательском департаменте ЦРТ. Тогда я еще не знала, в какое глубокое теоретическое море мне придется погрузиться без спасательного круга в виде хоть какого-то терминологического словаря.
Первый звонок от HR из ЦРТ содержал довольно странный для меня вопрос: «Вас не пугает, что придется переводить статьи с русского на английский и с английского на русский?» Меня это конечно не пугало — что ж страшного в статьях! Я их пишу и перевожу всю жизнь, даже люблю. Поэтому я без каких-либо тревог выполнила все тестовые задания, прошла ряд собеседований и, в конце концов, устроилась на работу в ЦРТ.
Получив на новом месте первое задание — перевести три статьи с английского на русский — я поинтересовалась:
— А кто авторы текстов?
— Ребята из соседнего кабинета, — ответили мне коллеги.
— А на русском они говорят? — спросила я.
— Конечно! На имена посмотри!
Иван, Алексей, Юрий – имена авторов и правда были русскими, поэтому я стала спрашивать у них черновики к статьям на великом и могучем. Планов, глоссариев или иных письменных источников, связанных со статьями, у авторов статей не оказалось, и я просто начала переводить. Меня радовал тот факт, что коллеги отлично знают английский и не нуждаются в русскоязычных заготовках.
"
Но радость длилась недолго. Уже со второго абзаца первого текста началось самое интересное: погружение в терминологическую пучину распознавания речи. Встречая термины, мне пока не знакомые, я конечно же искала их в словарях. Но их не было ни в одном известном мне словаре. Даже Multitran, пожалуй, самый полный онлайн-словарь профессиональных терминов и не только, молчал или выдавал откровенно не то. Google-переводчик в этой ситуации оказался полностью негоден, правда он повеселил меня пару раз, выдав несколько бредовых фраз вроде “морковных моделей” (Markov models) или “горлышка бутылки” (bottleneck).
Накопив пару десятков примеров такой непереводимой игры слов, я пошла к одному из авторов за разъяснениями. Увидев в моих глазах вопрос «Ребята, вы вообще о чём?», коллега стал мне помогать формулировать корректные переводы понятий. А еще он объяснил, что научные сотрудники ЦРТ не пишут научных статей на русском – это просто никому не нужно. Журналы, в которых имеет смысл публиковаться, сплошь англоязычные, да и читатели этих статей английским владеют достаточно хорошо, чтобы обмениваться знаниями и двигать науку вперед. Мне же перевод поручили для того, чтобы отчитаться по проекту перед заказчиком и сохранить в базе знаний ЦРТ.
Ситуация накалялась. Привлечение одного из светлых умов ЦРТ не положило конец языковому квесту. Во-первых, непереведенных терминов было слишком много, во-вторых, перевести словосочетание порой было возможно только текстом, размером со словарную статью.
Тогда в ход пошла тяжелая артиллерия – кандидатская диссертация коллеги, в которой ему также пришлось переводить термины распознавания речи на русский язык, да еще и так, чтобы собравшиеся на защите поняли, о чем идет речь. Стало проще, работа закипела, и вскоре все три статьи были переведены на русский.
За несколько месяцев я сделала для себя глоссарий из почти 400 терминов, который помогает мне переводить на русский и на английский любые тексты, созданные научными сотрудниками ЦРТ. Меня уже не пугают эмбеддинги, MFCC, MLP, bottleneck- признаки и т.п.
Книжный квест на просторах России
Задача (и даже не одна) по переводу статей была успешно решена, но осадок от языкового квеста остался. И дело здесь не в том, что мне поначалу было трудно. Просто в России полностью отсутствуют терминологические словари для сферы распознавания речи и искусственного интеллекта вообще. И такая пустота – огромное препятствие для тех, кто начинает свой путь в информационных технологиях. И неважно, что английский — международный язык науки. Из-за отсутствия элементарной опоры каждый, кто находится на старте IT-карьеры, чувствует неопределенность и тратит немало времени, чтобы научиться говорить с коллегами об искусственном интеллекте и читать о нем.
А ведь искусственный интеллект для науки не новость. По нему и монографии пишут, и диссертации защищают. И каждый ученый самостоятельно составляет глоссарий к своей работе, а иногда обходится и вовсе без него.
А что филологи? Что делают лексикографы и прочие гуманитарии, дабы помочь разобраться в хитросплетениях IT-терминов? Я много лет пользуюсь двуязычными бумажными и онлайн-словарями, в том числе такими, которые корректируют пользователи. Почти десять лет подряд меня всё устраивало (я работала в системной интеграции). А потом я пришла в ЦРТ и поняла, что Abbyy lingvo убивает всякую надежду найти хоть сколько-нибудь адекватный перевод IT-термина, а Multitran радует слишком редко. Этот ресурс демонстрирует весьма скромную базу терминов, связанных с искусственным интеллектом. Их в Мультитране собрано ровно 3400. Примерно такой же объем демонстрирует “океанология” (3267 терминов) и “зоология” (3625 терминов) — области хорошо изученные и давно обеспеченные литературой, в том числе терминологическими словарями. Для сравнения, прикладные IT-тематики на Мультитране проработаны лучше: “робототехника” содержит 9802 термина, “микроэлектроника” — почти 12000, “электроника” — 47640.
Филологи-русисты без дела не сидят, они исследуют “семантическое поле информационных технологий”. Вот только поле относится скорее к рубежу веков, ведь до сих пор в статьях обсуждаются расхожие и уже обрусевшие словечки вроде “софта”, “юзера” и “кликабельности”.
Что касается книжной индустрии. Она остается в стороне от озвученной проблемы. Доказательство тому — результаты поиска словарей по искусственному интеллекту.
Озон (активный продавец как новых книг, так и букинистики) показывает, что в 1992 году был издан: “Толковый словарь по искусственному интеллекту”, авторы-составители: А.Н. Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. В нем были собраны переводы 550 терминов с 5 европейских языков на русский. И всё. Больше ни одного словаря среди 2000 изданий в разделе “Искусственный интеллект” этого магазина. В остальных книжных всё ещё печальнее, там нет вообще ничего.
А вот результаты поиска в электронных каталогах трех крупнейших научных библиотек страны, которые получают обязательный экземпляр книг и покупают издания по всем отраслям знания.
Библиотека |
Количество документов по запросу (из них словарей) |
|
Всего в фонде |
Из них словарей |
|
Государственная публичная |
1136 |
Нашелся только 1 по смежной теме: |
Российская национальная библиотека |
890 |
3 словаря:
|
Российская государственная библиотека |
1524 |
4 Словаря: те же, что в РНБ (см. Системи с изкуствен интелект: Терминол. |
В общем, картина со словарями печальная. Среди трех найденных словарей по искусственному интеллекту первый — немецко-русский, второй издан четверть века назад (он, кстати выложен в сети), третий — интересен, на первый взгляд, но очень редок, его невозможно купить, можно только в научной библиотеке почитать, и то не в каждой.
Буду искать словари дальше — среди источников на английском языке.