Дев и тест корпуса автоматически рандомно собрали из ранней версии датасета, когда было еще несколько десятков тысяч предложений. В обучающей выборке их, конечно, нет. Хотя мы осознаем, что они далеки от идеала). На самом деле абсолютные значения BLEU практически ничего не значат, важнее сравнение их между собой, примерно +2-3 BLEU видно глазами, но тоже не 100% правило. Вот к примеру тут github.com/masakhane-io/masakhane-mt/tree/master/benchmarks/en-yo/jw300-baseline обучение на автоматически выровненных данных, то есть на более грязном корпусе, и тоже высокие показатели, причем тест лучше, чем дев существенно.
BPE считается в пределах одной минуты. То есть это не узкое место в процессе. Версию, которые вы предложили, не смотрел, спасибо за ссылку.
rouge считать sockeye умеет, но я на него не смотрю: принимаю по bleu и по визуальному сравнению. Проверил по логам: на валидации растет примерно с 0.38 до 0.47
На тренировочной и тестовой выборках у вас получались схожие результаты, когда уже оказались в первой сотне? Касательно слова «оверфит» в названии статьи и склеивания полукартинок… В этом плане синтетически увеличить тренировочный набор — очень интересная идея. Можно понять, есть ли склонность алгоритма к оверфиту. И если всё хорошо, то дообучить. Интересно было бы посмотреть, что даст склеивание четвертинок и далее
Сергей, спасибо большое за инструмент
rouge считать sockeye умеет, но я на него не смотрю: принимаю по bleu и по визуальному сравнению. Проверил по логам: на валидации растет примерно с 0.38 до 0.47