Как стать автором
Обновить
7
0
Андрей Копылов @SCLabs

Data Scientist

Отправить сообщение

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Время на прочтение4 мин
Количество просмотров1.7K

Недавно Сбер в статье Всё, что нам нужно — это генерация предложил интересный подход для отсеивания некачественных текстов (технического мусора и шаблонного спама). Но разве коэффициент сжатия zlib на качественных текстах не имеет нелинейной зависимости от длины сжимаемого текста? Давайте проверим.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии3

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность