Comments 2
Спасибо за интересную теорию и отдельно за свежую статью 2024 года по бенчмарку МТ на основе LLM! Скажите, применяли ли вы на практике данные метрики, в частности BLEU, которой посвящено так много критических разборов? И пробовали ли применить LLM as a judge - тоже довольно интересный подход к автоматизированной оценке качества перевода, когда большая языковая модель оценивает сама себя или другую модель. Он отчасти снимает ограничения предыдущих метрик, особенно BLEU, и позволяет работать в широком диапазоне языковых пар, но имеет ряд недостатков.
Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.
Машинный перевод