Comments 4
Спасибо за работу!
Сделал для вашей модели плагин себе в переводчик https://github.com/janvarev/OneRingTranslator (t5_mt).
Прогнал на своих бенчмарк-тестах (100 текстов из FLORES, оценка COMET). Получилось вот:
Для небольшой сетки, как мне кажется, очень неплохо!
Ссылка на полный рейтинг COMET для разных моделей: https://github.com/janvarev/OneRingTranslator/blob/main/docs_md/ESTIMATIONS.md#comet-scores
По поводу китайского языка - я не китаист и учу его не очень долго, но уже не раз сталкивался с тем, что большинство переводчиков довольно говенные, в том числе и гугл. Самый адекватный с китайско на русский, на мой взгляд, как ни странно у Яндекса, хотя и он регулярно косячит. В целом очень большая проблема у всех этих переводчиков с тем, что в китайском большую роль играет контекст, то есть «я иду гулять» и «я пойду гулять» без дополнительного контекста будут абсолютно идентичны. Мне кажется, из-за этого часть метрик будут работать неправильно. Ну и грамматические конструкции они тоже плохо передают, хотя их там не так чтобы много, грамматически язык довольно убогий. Вы пробовали показывать результат работы людям?
Сравнение локальных моделей машинного перевода для английского, китайского и русского языков