Как стать автором
Обновить

Оценка оценщика: как оценить метрику качества машинного перевода

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров734

Машинный перевод сегодня — задача настолько старая, что, казалось бы, все, что с ней связано, должно быть исследовано вдоль и поперек. С наступлением эпохи LLM сложности, характерные для статистического и нейронного машинных переводов, были частично решены, и уже сегодня LLM активно применяются в индустрии для создания гибких доменспецифичных переводчиков. Оказалось правда, что применение LLM, равно как и развитие более классических методов машинного перевода, не только открывает широкое окно возможностей, но и ставит перед специалистами огромное количество новых проблем. Фокус этих проблем смещается сегодня с построения методов машинного перевода в сторону вопросов оценки качества этих переводов в различных условиях. Оценка переводов сегодня не успевает в своем развитии за самими переводами.

В течение двух десятилетий существовала доминирующая метрика качества машинных переводов — небезызвестная метрика Bleu, предложенная в 2002 году Papineni et al. (*Bleu: a method for automatic evaluation of machine translation*). Почти сразу появилась и разгромная критика BLEU. Одна из первых статей с высоким индексом цитирования, активно критикующая BLEU датируется 2004 годом, то есть писать ее начали, вероятно, практически сразу после печати статьи о BLEU. Это, кстати говоря, один из секретов сверхвысокой цитируемости некоторых статей — своими несовершенствами они мотивируют тысячи авторов писать критику, чем увеличивают собственную цитируемость. Системная критика BLEU последних лет была сосредоточена в полях крупнейшего в мире события, посвященного машинному переводу — ежегодного воркшопа WMT (workshop on machine translation).

Несколько слов об этом событии. Workshop on Machine Translation (WMT) — крупнейшая конференция по машинному переводу, которая проводится под эгидой Ассоциации компьютерной лингвистики (ACL). В рамках мероприятия проводится ряд соревнований, в основном посвященных улучшению качества машинных переводов на различных доменах, предлагаются новые бенчмарки, а также, что самое интересное в контексте нашего сегодняшнего разговора, проводится соревнование по разработке новых метрик качества машинных переводов. В 2022 году по итогам конференции была написана очень любопытная статья с интригующим названием «Results of WMT22 Metrics Shared Task: Stop Using BLEU — Neural Metrics Are Better and More Robust». Тот самый случай, когда название статьи по сути является и abstract, и introduction и conclusion в одном лице.

Основные тезисы этой работы следующие:

  1. В течение очень долгих лет BLEU доминировал на «рынке» оценки качества машинных переводов. Подавляющее большинство научных работ ориентировались (и до сих пор ориентируются) на BLEU, как на основную метрику качества

  2. При этом BLEU является далеко не самой лучшей метрикой качества MT, уступая очень многим конкурентам

  3. Существуют целые семейства метрик качества, значительно обгоняющие BLEU. Особенно хороши продвинутые метрики, основанные на нейронных моделях

Эти выводы интересны сами по себе и вполне отражают тенденции в области оценки качества машинных переводов, но вот что вызывает отдельный интерес — а как вообще оценить, насколько хороша та или иная метрика качества машинного перевода?

В той же статье описаны основные подходы, используемые жюри WMT. Если кратко, то оценка метрик качества основывается на их «похожести» на оценку, полученную при помощи прямого человеческого ассессмента. Вопрос о том, как оценить эту схожесть, да и как получать этот прямой ассессмент — не вполне очевиден.

К примеру, в течение долгого времени в среде специалистов по машинным переводом не было консенсуса о том, следует ли в качестве асессоров рассматривать профессиональных переводчиков, ограничиваясь при этом сравнительно небольшим числом оценок, либо же довериться «мудрости толпы», заменив небольшое число профессиональных переводчиков большим количеством людей с поверхностным знанием релевантной языковой пары. Начиная с 22 года, WMT использует первый подход. Другой вопрос состоит в том, следует ли делать оценку однокритериальной или многокритериальной, а также использовать ли подробную шкалу или шкалу с небольшим количеством возможных оценок (условно, от 0 до 100 или от 0 до 3). Как считать схожесть? Рассматривать корреляцию? А какую? Или же смотреть в первую очередь на ранжирование разных переводов, полученное при помощи рассматриваемой метрики? Что будет, если метрика оценивает лишь некоторый конкретный критерий качества перевода, а не качество перевода в целом? Можно ли как‑то идентифицировать уязвимости метрик, что особенно актуально для нейронных?

По каждому из этих вопросов написаны десятки работ. Дальше я постараюсь кратко ответить на некоторые из этих вопросов (по крайней мере на те, на которые вообще можно ответить кратко). В качестве корреляции следует использовать какой‑то вариант ранговой корреляции, поскольку абсолютные значения метрик сильно отличаются. На тему различия шкал метрик, кстати, есть хорошая работа от современного гуру машинных переводов Тома Косми (надеюсь, правильно локализовал имя Tom Kocmi, 1094 цитирования только за 2024 год). Работа называется «Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies», 2024 год. В качестве основного коэффициента корреляции используется ранговая корреляция Кендалла. Однако, итоговый метод ранжирования и скоринга метрик качества на WMT намного хитрее. Главная идея такая: чтобы понять, какая метрика качества перевода лучше, организаторы сравнивают их по множеству разных задач. В каждой задаче метрики получают места — как на соревнованиях (1-е, 2-е, 3-е и т. д.) — по принципу, у кого корреляция с человеческими оценками выше, та метрика и лучше. Потом для каждой метрики считают среднее место по всем задачам. У кого среднее место меньше — тот и лучше. Это позволяет честно сравнить метрики, даже если сами оценки в задачах измеряются по‑разному. При этом, год от года некоторые конкретные особенности этого механизма меняются. Например, в 2022 году кроме корреляции Кендалла также рассматривалась корреляция Пирсона, и сравнение по обеим метрикам учитывалось с равным весом.

Средний ранг по корреляции, которую заняла каждая из метрик качества машинного перевода на WMT-2022. Таблица из статьи " Results of WMT22 Metrics Shared Task:  Stop Using BLEU– Neural Metrics Are Better and More Robust ".
Средний ранг по корреляции, которую заняла каждая из метрик качества машинного перевода на WMT-2022. Таблица из статьи » Results of WMT22 Metrics Shared Task: Stop Using BLEU‑ Neural Metrics Are Better and More Robust «.

У нейронных метрик существуют уязвимости, которые бывает довольно сложно найти из‑за неинтерпретируемости нейронных моделей. Есть работы, посвященные поиску таких уязвимостей у известных нейронных метрик. Например, работа «Pitfalls and outlooks in using comet» 2024 года даже приводит некоторый вариант систематизации проблем одной из самых известных метрик качества машинного перевода — Comet (вернее, это целое семейство нейронных метрик).

Также существуют методы состязательных атак на метрики. В основном, они основаны на попытке обнаружить некоторые конкретные уязвимости метрик за счет внесения изменений в лексическую или грамматическую составляющую переводов — например, удаляя некоторые слова, либо перемешивая их. Адверсальные атаки сами по себе интересны, однако представляют из себя тему совсем другого разговора (но если интересно, рекомендую почитать про метод CLARE).

Заключение

Итак, современная индустрия оценки качества машинных переводов столкнулась с кризисом за счет отказа от доминировавшей в течение двух десятилетий метрики BLEU. Никто уже никогда не узнает, сколько потенциально хороших моделей было отвергнуто, сколько неверных выводов было сделано из‑за того, что человечество во время пика своей работы над решением задачи MT пользовалось далеко не самой лучшей метрикой качества (впрочем, кажется, никакой трагедии из‑за этого не случилось). Этот кризис привел к развитию новых подходов в оценке качества машинных переводов, и современная индустрия ориентируется на методы оценки качества MT на основе нейронных моделей (а еще в последнее время развивается LLM as a judge)

Сравнивать метрики друг с другом сложно, в силу отсутствия очевидной методологии сравнения, единой шкалы измерения качества, да и вообще принципиальной многокритериальности задачи, которую любая метрика пытается свести к единому критерию. Существующие методы основаны на оценке корреляций значений метрик качества с человеческими оценками и усреднению полученного результата по широкому спектру различных задач. У каждого подхода есть свои существенные недостатки, многие из которых прямо сейчас находятся в статусе активно исследуемых.

Теги:
Хабы:
+2
Комментарии2

Публикации

Ближайшие события