Наши исследователи разработали новый метод оценки качества машинного перевода. Эту разработку можно использовать для совершенствования моделей, которые уже переводят тексты довольно точно, но делают это не всегда естественно.
Например, в неформальном диалоге модель может перевести «sorry, my bad» как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обращать внимание нейросетей на такие недочёты.
Новая система оценки Яндекса называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Мы представили её на международной конференции по машинному обучению EMNLP 2025.
Она не повышает качество перевода сама по себе и не вмешивается в работу нейросети. Но RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.
В отличие от других метрик, RATE оценивает перевод по трём главным для пользователя критериям: точность передачи смысла (Accuracy), естественность языка (Fluency) и соответствие стилю оригинала (Scores). Это позволяет использовать метод для любых типов текстов. Например, с его помощью в новостях можно проверить точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает саму ошибку, но и оценивает её значимость — от небольших неточностей до сильных искажений.

Сравнение на данных крупнейшего международного конкурса WMT показало, что RATE выявляет в семь раз больше ошибок, чем другие методы оценки — MQM (Multidimensional Quality Metrics — многомерные показатели качества) и ESA (Error Span Annotation — аннотация диапазона ошибок). Результаты эксперимента оценивали высококвалифицированные ИИ‑тренеры. Сравнение доказывает, что другие метрики не обнаруживают множество недочётов в переводах нейросетей, которые замечают пользователи.
Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности по‑прежнему остаётся человеческий перевод, хотя YandexGPT (а с октября — Alice AI LLM) уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.
Мы в Яндексе уже используем RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает нам создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.
