Машинный перевод / Comments / Habr

Спасибо за интересную теорию и отдельно за свежую статью 2024 года по бенчмарку МТ на основе LLM! Скажите, применяли ли вы на практике данные метрики, в частности BLEU, которой посвящено так много критических разборов? И пробовали ли применить LLM as a judge - тоже довольно интересный подход к автоматизированной оценке качества перевода, когда большая языковая модель оценивает сама себя или другую модель. Он отчасти снимает ограничения предыдущих метрик, особенно BLEU, и позволяет работать в широком диапазоне языковых пар, но имеет ряд недостатков.

Comments 2

Aliaksei_Rudak Jun 27 at 18:29

Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.