Комментарии 3
Спасибо за интересный разбор! Я тот самый человек, готовивший эту фильтрацию и учивший модель. Замечание про зависимость от длины совершенно верное, но нам облегчили тут жизнь несколько факторов:
1. мы сжимали документы целиком, а не предложения, так что медианная длина сэмпла была довольно большой
2. были отфильтрованы документы ниже порога длины, чуть больше 100 символов. И выбросы с аномально высокой длиной тоже.
3. для каждого поддатасета эмпирические пороги подбирались отдельно, как раз по этой причине, в силу очень разной медианной длины документа.
Конечно, зависимость коэф. сжатия по-прежнему присутствует, но становится сильно менее выраженной на длинных документах. Сейчас продолжаем работу надо улучшением фильтров подготовки датасетов, обязательно учтем это в новых итерациях.
1. мы сжимали документы целиком, а не предложения, так что медианная длина сэмпла была довольно большой
2. были отфильтрованы документы ниже порога длины, чуть больше 100 символов. И выбросы с аномально высокой длиной тоже.
3. для каждого поддатасета эмпирические пороги подбирались отдельно, как раз по этой причине, в силу очень разной медианной длины документа.
Конечно, зависимость коэф. сжатия по-прежнему присутствует, но становится сильно менее выраженной на длинных документах. Сейчас продолжаем работу надо улучшением фильтров подготовки датасетов, обязательно учтем это в новых итерациях.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины