Search
Write a publication
Pull to refresh
7
0
Андрей Копылов @SCLabs

Data Scientist

Send message

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Reading time4 min
Views1.8K

Недавно Сбер в статье Всё, что нам нужно — это генерация предложил интересный подход для отсеивания некачественных текстов (технического мусора и шаблонного спама). Но разве коэффициент сжатия zlib на качественных текстах не имеет нелинейной зависимости от длины сжимаемого текста? Давайте проверим.

Читать далее

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity