Как стать автором
Поиск
Написать публикацию
Обновить
7
0
Андрей Копылов @SCLabs

Data Scientist

Отправить сообщение

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Время на прочтение4 мин
Количество просмотров1.8K

Недавно Сбер в статье Всё, что нам нужно — это генерация предложил интересный подход для отсеивания некачественных текстов (технического мусора и шаблонного спама). Но разве коэффициент сжатия zlib на качественных текстах не имеет нелинейной зависимости от длины сжимаемого текста? Давайте проверим.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность