Всем привет! Меня зовут Катя Еникеева, я руковожу командой аналитики перевода в Яндексе. Мы занимаемся оценкой качества машинного перевода — моделей, которые работают в Яндекс Переводчике, Браузере, Поиске и во множестве других сервисов.

Качество перевода можно измерять по‑разному, но можно выделить два основных направления: экспертная разметка и автоматические метрики. В последние годы автометрики всё чаще строятся поверх LLM: фактически это отдельный пайплайн, который анализирует исходный текст и полученный перевод. Поэтому нас интересует не только способность моделей переводить, но и их умение анализировать качество перевода, что может быть заметно сложнее. 

Дальше вас ждёт обзор самых интересных решений, представленных на конференции EMNLP 2025.

Наша команда перевода приехала на EMNLP 2025 не только слушать, но и рассказывать о своей работе. В этом году у нас приняли две статьи: одну — в Findings основной конференции, вторую — на WMT. О них я тоже подробно расскажу.

Новые мультиязычные датасеты и подходы к оценке качества перевода

На конференцию в 2025 году приняли около пяти тысяч статей в самых разных форматах, так что охватить всё физически было невозможно. Тем не менее общие тренды хорошо считывались уже по тематике секций. Много внимания уделялось LLM Agents и кросс‑дисциплинарным применениям больших моделей — например, в социологии или психологии. Сильным направлением оставались мультимодальность и мультиязычность. Чувствовался интерес к новым бенчмаркам: многие работы предлагали более сложные или узконаправленные наборы тестов, которые позволяют оценивать отдельные свойства моделей, а не просто общий уровень качества.

Если говорить именно о машинном переводе, то появилось новое направление: оценка качества перевода с точки зрения обычного пользователя онлайн‑сервиса, а не профессионального переводчика. Такой сдвиг кажется важным: он меняет сами критерии, по которым мы понимаем, что перевод хороший, и делает исследования ближе к реальному пользовательскому опыту.

Одним из заметных стендов в области машинного перевода был BOUQuET — новый мультиязычный бенчмарк от FAIR. Их предыдущий FLORES давно стал стандартом де‑факто и постоянно расширяется, но в BOUQuET авторы пошли другим путём. Вместо того чтобы использовать готовые англоязычные тексты, они попросили носителей восьми довольно хорошо представленных языков придумать собственные примеры из разных жизненных ситуаций. При этом каждое предложение должно было покрывать определённые лингвистические явления — грамматические, лексические или дискурсивные. На каждый язык пришлось по 250 примеров, 2000 для всего набора. Для удобства дальнейшей работы каждое предложение сразу перевели на английский, чтобы облегчить последующий перевод на другие языки.

Главная идея — сделать бенчмарк открытым и живым. Датасет вместе с подробными гайдлайнами выложили на платформу, где исследователи и энтузиасты могут постепенно добавлять переводы на новые языки, в том числе малоресурсные. Параллельно появился и лидерборд, на котором уже можно посмотреть результаты LLM и специализированных MT‑моделей.

Рядом представляли ещё один крупный мультиязычный датасет — SMOL, который подготовили Google Research/DeepMind совместно с несколькими университетами. В отличие от BOUQuET, SMOL — именно обучающий корпус для малоресурсных языков. Его первая часть, SmolSent, формируется из английского CommonCrawl: авторы выбирают предложения так, чтобы максимально покрыть разнообразие токенов, а затем каждое проходит ручную проверку. Вторая часть — SmolDoc — создаётся иначе: т��ксты специально генерировались LLM, чтобы получить больше вариативности по темам и лингвистическим структурам. После этого весь корпус переводился на 115 языков, причём часть переводов делали волонтёры, а часть — профессиональные переводчики. Авторы показали, что дообучение Gemini 2.0 Flash на этом корпусе даёт особенно большие приросты именно на малоресурсных направлениях.

Ещё одна интересная работа — QE4PE, посвящённая тому, как методы оценки качества перевода на уровне слов влияют на работу профессиональных переводчиков при постредактировании. Сначала несколько специально отобранных переводчиков редактировали тексты с нуля. Затем в интерфейсе им показывали подсветку мест, которые якобы требуют исправления: подсветка могла быть основана на uncertainty‑метриках, на метрике XCOMET или на данных первой волны редактуры (где слова, исправленные одним или двумя переводчиками, считались незначительными ошибками, а исправленные всеми — грубыми). 

Корпус для экспериментов выбрали достаточно сложный: треды из Mastodon и абстракты из PubMed. После этого сравнивали, как подсветка влияет на скорость работы (почти никак), на то, какие именно фрагменты переводчики решают редактировать (на англо‑итальянском направлении переводчики действительно чаще исправляли подсвеченные места, а на англо‑нидерландском такой зависимости почти не было), и на качество финального результата. Благодаря редактуре качество в целом растёт довольно сильно, но способы подсветки сами по себе существенной разницы не дают.

И ещё одна работа в том же направлении — Unsupervised Word‑level Quality Estimation Through the Lens of Annotators“ (Dis)agreement. Она посвящена оценке качества перевода на уровне токенов, но без обучения на человеческой разметке. Обычно для решения этой задачи либо обучают специальные модели на разметке MQM, либо используют подробные промпты для LLM. Авторы предложили идти от внутренних свойств самой модели перевода и использовать разные варианты uncertainty: 

  • surprisal — минус лог‑вероятность слова; 

  • entropy — энтропию распределения по словарю; 

  • LL‑surprisal — тот же surprisal, но на промежуточных слоях модели; 

  • LL KL‑Div — KL‑дивергенция между распределениями вероятностей токенов на промежуточных слоях и последнем слое.

Эти unsupervised‑метрики сравнили с XCOMET, который обучен на разметке ошибок, и с согласованностью переводчиков при постредактировании в датасете QE4PE. Выяснилось, что unsupervised‑методы работают лишь немного хуже supervised‑подходов, а у XCOMET использование confidence weighting — учёт вероятностей классов ошибок — сильнее всего повышает качество. В таком режиме XCOMET по надёжности приближается к согласованности реальных переводчиков. Ещё один важный вывод касается человеческой разметки: если использовать разметку только одного эксперта, метрики по качеству становятся трудноразличимы и результаты оказываются довольно шумными, тогда как перекрывающаяся разметка сразу даёт более стабильное ранжирование.

Ещё один интересный сюжет — попытка оценить, насколько LLM способны к настоящему лингвистическому рассуждению. В работе LINGGYM: How Far Are LLMs from Thinking Like Field Linguists? авторы предлагают бенчмарк для проверки, умеют ли модели восстанавливать пропущенную информацию в описании малоресурсного языка. В основе лежит формат IGT, включающий транскрипцию, морфемный анализ, глоссы и английский перевод. Примеры взяты из грамматик 18 малых языков, а сама задача сводится к multiple‑choice: модель должна выбрать правильное заполнение пропуска.

Исследователи проверяли, помогают ли дополнительные подсказки — вроде фрагментов грамматических описан��й — и усложняют ли задачу автоматически сгенерированные дистракторы. Результаты оказались довольно суровыми: модели справляются с задачей плохо, даже несмотря на то что данные, из которых собран датасет, уже много лет лежат на GitHub и могли попасть в обучение. Грамматические подсказки действительно помогают, но стандартные подходы вроде chain‑of‑thought или «ризонинга» почти не дают прироста. Похоже, что для таких задач LLM нужны более специализированные механизмы, чем общие способности к рассуждению.

Работа Toward Machine Translation Literacy исследует вопрос о том, как пользователи с разным уровнем владения языком воспринимают ошибки машинного перевода. В эксперименте участникам нужно было помогать испаноговорящему персонажу ориентироваться в музее, опираясь только на английские переводы его реплик. Переводы были намеренно искажены, а задание требовало выбрать правильное изображение из пары. После выбора участники оценивали корректность текста, свою уверенность и готовность снова пользоваться системой.

Картина получилась на удивление однозначной. Люди, хорошо знающие испанский, почти всегда замечали ошибки. Пользователи, которые языком не владеют, пропускали даже стилистические огрехи и нарушения плавности текста. На итоговый выбор изображения сильнее всего влияли смысловые искажения — и именно в этих случаях участники без знания языка ошибались чаще всего. Авторы делают важный вывод: пользователи, не владеющие исходным языком, оказываются слишком доверчивы к машинному переводу и часто не распознают даже очевидные сбои. Чтобы снизить риск неправильного понимания, им нужны дополнительные интерфейсные подсказки, объяснения и, в широком смысле, развитие «MT literacy».

Наши статьи для EMNLP 2025

Теперь о том, какими статьями мы поделились с сообществом на конференции. Конечно, выступать было волнительно. Но наши решения хорошо дополняли общий тренд — это придало уверенности..

Refined Assessment for Translation Evaluation: Rethinking Machine Translation Evaluation in the Era of Human‑Level Systems

Наша первая статья посвящена человеческой оценке качества машинного перевода. Сейчас и специализированные модели, и универсальные языковые модели показывают довольно высокие результаты — по крайней мере в направлениях, где данных много, например в паре переводов английский — русский. Из‑за этого возникла новая задача: нужно научиться оценивать переводы более детально. 

Важно понимать, какие конкретно ошибки допускают модели, когда им всё же не хватает точности, и хочется иметь более чувствительную метрику, которая позволит работать с переводами высокого качества. 

Каждый год в рамках конференции WMT (Conference/Workshop on Machine Translation) проходит масштабная оценка MT‑систем (систем машинного перевода), и там традиционно используются два подхода к разметке: MQM и ESA. MQM — довольно сложная схема с иерархией ошибок и системой их взвешивания по тяжести; чтобы работать по этой методике, эксперты проходят специальную подготовку. При этом сама иерархия, помимо своей сложности, остаётся местами неоднозначной и, например, не покрывает такие типичные для перевода ошибки, как тавтологии. ESA была предложена как более простой вариант: эксперт выделяет только два класса ошибок — грубые и незначительные — и затем ставит итоговую оценку от 1 до 100. Это удобнее, но метод теряет часть нюансов: например, позволяет выделить грубые ошибки точности, но игнорирует естественность перевода.

Мы предложили альтернативный подход — метод оценки RATE. В нём сочетается разметка ошибок по содержательным категориям и степ��ни серьёзности с отдельной оценкой перевода по трём шкалам: смысловой точности, гладкости текста на языке перевода и стилистическому соответствию. Такой формат даёт подробную и при этом структурированную картину качества: общая оценка RATE представляет собой сумму оценок серьёзности ошибок по всем категориям.

Мы тестировали RATE на данных WMT 2024. В этот корпус входят тексты четырёх доменов: художественная литература, новости, посты в соцсетях и видеосубтитры. Мы взяли семь систем машинного перевода, вошедших в число лучших по итогам WMT 2024, и добавили профессиональный эталонный перевод. Разметку выполняли опытные редакторы‑переводчики, и они обнаружили примерно в семь раз больше ошибок, чем зафиксировано в стандартной разметке WMT.

Благодаря такой детализации удалось лучше различить даже те модели, которые по результатам WMT выглядели практически одинаково. RATE показал, что между ними всё‑таки есть существенные расхождения: просто классические методы не всегда их улавливают. 

Yandex Submission to the WMT 25 General Translation Task

Вторая статья посвящена нашей модели, которая в 2025 году участвовала в WMT General MT Task. 

Мы используем специализированную модель перевода, построенную на базе внутреннего претрейна с 7B параметров. Обучение начинается с постпретрейна: на этом этапе мы добавляем в данные около 30% параллельных корпусов, чтобы научить модель соответствиям между нашей парой языков. После этого она проходит этап SFT (p‑tuning), где уже напрямую учится выполнять именно задачу перевода.

Далее начинается этап алайнмента. Сначала мы применяем CPO — берём пары переводов, полученные от разных систем, дополняем их улучшениями при помощи general‑purpose LLM и обучаем модель выбирать лучший вариант на парах плохого и хорошего перевода. Следующий шаг — DPO, где модель уже ориентируется на переводы, специально отредактированные людьми.

Для участия в WMT мы расширили датасет разметкой WMT 2024, выполненной как раз по нашему методу RATE, о котором я рассказала выше. Наличие нескольких размеченных переводов одного и того же исходного текста дало нам возможность включить в обучение сразу несколько контрастных пар по разным измерениям качества — это оказалось очень полезным именно для финишной доводки модели.

В результате система стала заметно лучше по гладкости — тексты звучат более естественно, — при этом точность перевода не ухудшилась. Такое аккуратное сочетание контрастного обучения и высокодетализированной разметки позволило нам сделать модель ровнее именно в тех местах, где хорошие системы обычно не так просто различить.

Результаты оценки RATE для дообученной на данных WMT 24 модели в сравнении с нашей базовой LLM-моделью и флагманскими general-purpose-моделями
Результаты оценки RATE для дообученной на данных WMT 24 модели в сравнении с нашей базовой LLM‑моделью и флагманскими general‑purpose‑моделями
Этапы обучения нашей модели перевода
Этапы обучения нашей модели перевода

EMNLP 2025 показала, что исследовательское сообщество всё больше внимания уделяет не просто точности машинного перевода, но и его восприятию реальными пользователями, а также работе с малоресурсными языками. Главной задачей становится не только развитие технологий, но и регулярное переосмысление критериев качества — с учётом реального пользовательского опыта. Наши работы органично вписываются в это направление: мы не только представили новые методы экспертной оценки и обучения переводных моделей, но и продемонстрировали их практическую пользу на актуальных задачах.