PatientZero 20 янв 2024 в 09:51

Почему текст в нижнем регистре сжимается лучше

Простой

7 мин

11K

HTML * Хранение данных * Сжатие данных * Экология

Обзор

Перевод

+22

Комментарии 28

abutorin 20 янв 2024 в 09:58

Что-то мне подсказывает, что если в тексте заглавных букв будет больше, то все поменяется наоборот и строчные будут "мешать". Кажется что проблема не в "регистре" символов, а в их статистическом распределении, в обычно тексте заглавных просто меньше и они проводят к "раздуваю" словаря.

fedorro 20 янв 2024 в 10:08

Согласен - это слишком банальный опыт. Было бы интереснее сравнить с текстом набранным 100% заглавными, или тот же текст, но первые буквы строчные, а остальные заглавные - тогда бы можно было делать выводы, например, что из-за битового представления сжимаются лучше...

saboteur_kiev 27 янв 2024 в 23:20

Вдобавок получить на 31 байт меньше на большой статье, без разбора где именно вышло сэкономить - попахивает неправдной. Современные архиваторы со словарями вполне могли бы тот же Sat сжать внутренним словарем, где уверен дни недели и так есть как часто встречающиеся сочетания..

plFlok 20 янв 2024 в 10:42

статья о том, почему больший словарь занимает больше места, чем меньший словарь.

0HenrY0 20 янв 2024 в 21:29

Не совсем так. Размер словаря не меняется, отличие лишь в частоте распределения.

alexxz 21 янв 2024 в 09:10

Словарь меняется. Словарь становится меньше. Словарь в этих опытах - набор используемых символов.

DennisP 20 янв 2024 в 13:26

Было бы любопытно посмотреть зависимость сжимаемости от регистра текста у brotli. Там ведь встроенный словарь, построенный с помощью анализа большого количества HTML/js/CSS, и насколько я понимаю, словарь этот case sensitive.

sci_nov 20 янв 2024 в 15:32

А разве код Хаффмана не в конце стоит? Почему в начале-то?

RigelGL 20 янв 2024 в 16:09

Deflate применяет алгоритмы сжатия в лучшем для конкретных данных порядке для минимизации размера на выходе.

sci_nov 21 янв 2024 в 07:38

странно-странно... препроцессинг на первом месте, LZ на втором (с разными вариациями: контекст, хеши и т.п.), а потом энтропийный кодек (чаще Хаффман и FSE). В очень редких случаях (много нулей и т.п.) можно обойтись одним энтропийным кодеком, но это так, не очень репрезентабельно)

CrazyElf 21 янв 2024 в 17:01

Да, странно. Конкретно за deflate не скажу, но всегда именно как вы говорите сжимали. Сначала повторы, а потом уже частотное кодирование.

kareon 20 янв 2024 в 19:47

В принципе, в английских заголовках вообще не нужны заглавные буквы, их легко закапитализировать с помощью text-transform: capitalize. А вот что касается остального текста, интересная задача, насколько сложно, используя словари или AI, восстановить капитализацию слов, если весь текст передан в lowercase

xSVPx 20 янв 2024 в 21:06

В бывают заглавные буквы не после точек? Ну т.е. можно декапитализировать только первые буквы и буквы после точек, точек с пробелами, возвратами кареток итп. И аи не понадобится... А с помощью нейросети, возможно удастся просто выкинуть половину букв, а потом восстановить. Но это не точно :).

Denai 20 янв 2024 в 21:26

В английских заголовках заглавные буквы почти после всего

Spyman 21 янв 2024 в 00:24

Вот это кстати любопытная идея, которая правда очень похожа на сжатие с использованием словаря, только вместо словаря какой нибудь gptChat. Мы сначала выкидываем две трети букв и даём ему задачу восстановить текст (ну или для начала только согласные уберём), дальше сравниваем результат, если 100% совпало - отдаём, если есть ошибки - увеличиваем там количество букв и повторяем). Каждую страницу придётся "запекать" заранее, а у каждого пользователя должен быть одинаковый набор весов, но мне кажется план рабочий). А если уж потом хаффманом жахнуть с укороченным словарём и lzss накрыть - вообще хорошо будет ?

S_Corvin 21 янв 2024 в 08:59

А потом модель gptChat дообучили и она перестала выдавать 100% результат.

xSVPx 21 янв 2024 в 10:35

Интуитивно кажется, что если как-то знаки препинания удалить, то многие слова превратятся в пары слов итп. Ну т.е. можно будет какой-то словарь сделать заранее по которому все будет сжиматься чуть ли не предложениями. Вообще для текста, наверное, проще нейросеть тренировать в сторону добавления воды :). Ну т.е. присылать и хранить сразу "автореферат", а обмазать его мычанием и бурчанием нейросеть, наверное сможет и сама. Потом пять раз своими словами описать итд итп. И получится статья для газеты. А в сжатом виде 2-3 предложения.

S_Corvin 26 янв 2024 в 09:50

Сжатие текста должно быть обратимым.

xSVPx 30 янв 2024 в 10:10

Зачем ?

Если речь о газетной заметке, то в ней 5% информации. Остальное "белый шум". Просто не надо этот шум вообще хранить и пересылать, надо его генерировать прям на пользователе. А за отдельные деньги показывать не зашумленные статьи, а реальные, т.е. коротко и по делу :).

Ilusha 21 янв 2024 в 12:22

Имена, названия, аббревиатуры. Местоимение «I». Местоимение «Вы» в единственном числе.

ivvi 21 янв 2024 в 02:21

Зачем экономить углекислый газ?

zetroot 21 янв 2024 в 08:36

Закончится же

Gummilion 21 янв 2024 в 04:14

Получается, в коде выгоднее использовать underscore_notation вместо CamelCase. А лучше вообще использовать имена из одного-двух символов и повторно использовать переменные - подумайте об экологии!

DennisP 21 янв 2024 в 06:43

ну в общем-то минификация JS в том числе это обычно и подразумевает. А большинство js файлов на проде обычно минифицированы

Zara6502 21 янв 2024 в 05:59

а если вместо разных букв использовать только одну, но сжиматься будет еще лучше.

stozen 22 янв 2024 в 09:57

Разве baobaba не должна сжаться до bao<3,2><5,2> ?

CrazyElf 22 янв 2024 в 13:52

Да, непонятный кейс. Либо короткие последовательности (длиной меньше 3, например) не сжимаются и тогда вообще тут сжатия никакого не будет (а будет копирование исходного слова целиком), либо будет ваш кейс. А то, что в посте - я думал это я тупой и не понял, а оказывается не только мне непонятно ))

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий