Как стать автором
Обновить

Комментарии 3

Спасибо за интересный разбор! Я тот самый человек, готовивший эту фильтрацию и учивший модель. Замечание про зависимость от длины совершенно верное, но нам облегчили тут жизнь несколько факторов:
1. мы сжимали документы целиком, а не предложения, так что медианная длина сэмпла была довольно большой
2. были отфильтрованы документы ниже порога длины, чуть больше 100 символов. И выбросы с аномально высокой длиной тоже.
3. для каждого поддатасета эмпирические пороги подбирались отдельно, как раз по этой причине, в силу очень разной медианной длины документа.
Конечно, зависимость коэф. сжатия по-прежнему присутствует, но становится сильно менее выраженной на длинных документах. Сейчас продолжаем работу надо улучшением фильтров подготовки датасетов, обязательно учтем это в новых итерациях.
В основной статье, кажется, не упомянуто, но zlib тут выполняет роль механизма приближенной оценки энтропии документа.
Спасибо за уточнение!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории