Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение
Частично, это связано с тем что в мобильной версии комментарии находятся на отдельной странице, но тем не менее вы правы — экономия будет все равно будет на уровне 60%.
Так через приложение можно же и пополнять карту. Т.е. в ответ на какой-нибудь другой запрос этот ключ все равно приходил бы.
Еще интересно то, что за ведущие американские вузы выступают азиаты. Что бы это могло значить…
Вы же выше писали о 84%
Ну попробуйте) У такого файла избыточность будет нулевая, ни один архиватор ему ничем не сможет помочь.
И вообще, то что вы описываете, по сути, и есть фильтр Блума, только с одной хэш-функцией.
Тогда это порядка миллиона значений, которые вы даже по 1-му биту на каждый в 64к файл не поместите.
При таком подходе хэш от слова должен быть 18-19 бит, т.е. всего 262144 — 524288 возможных хэшей что сравнимо с количеством слов в словаре с обработкой или без нее. Т.е. у вас будет приходится примерно по 1 слову на 1 хэш при использовании качественной хеш-функции. А это значит каждый нолик будет давать false negative.
Ненастоящие слова будут распределены по всем возможным хешам тоже примерно равномерно и вряд ли вам удастся выделить небольшое количество хешей, на которые приходится много попаданий из ненастоящих слов так чтобы проставить им нули.
Никто ж не говорит, что это строго задача машинного обучения. Это один из возможных подходов к ее решению.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность