Частично, это связано с тем что в мобильной версии комментарии находятся на отдельной странице, но тем не менее вы правы — экономия будет все равно будет на уровне 60%.
Ну попробуйте) У такого файла избыточность будет нулевая, ни один архиватор ему ничем не сможет помочь.
И вообще, то что вы описываете, по сути, и есть фильтр Блума, только с одной хэш-функцией.
При таком подходе хэш от слова должен быть 18-19 бит, т.е. всего 262144 — 524288 возможных хэшей что сравнимо с количеством слов в словаре с обработкой или без нее. Т.е. у вас будет приходится примерно по 1 слову на 1 хэш при использовании качественной хеш-функции. А это значит каждый нолик будет давать false negative.
Ненастоящие слова будут распределены по всем возможным хешам тоже примерно равномерно и вряд ли вам удастся выделить небольшое количество хешей, на которые приходится много попаданий из ненастоящих слов так чтобы проставить им нули.
И вообще, то что вы описываете, по сути, и есть фильтр Блума, только с одной хэш-функцией.
Ненастоящие слова будут распределены по всем возможным хешам тоже примерно равномерно и вряд ли вам удастся выделить небольшое количество хешей, на которые приходится много попаданий из ненастоящих слов так чтобы проставить им нули.