encyclopedist28 фев 2012 в 09:40

Сравнение программ сжатия в применении к передаче больших объёмов данных

6 мин

14K

Восстановление данных *

Из песочницы

+20

Комментарии 17

FilimoniC 28 фев 2012 в 10:03

7z почему нет?

markhor 28 фев 2012 в 12:24

xz сжимает тем же LZMA/LZMA2

infsega 28 фев 2012 в 13:15

Не только. В 7z есть PPmD, который сжимает с лучшим коэффициентом, но намного медленнее.

encyclopedist 28 фев 2012 в 19:43

Да, вы правы.
Просто ставилась цель не протестировать все возможные алгоритмы, а ограничиться только наиболее «стандартными». В результате я посчитал, что основной алгоритм в 7z, LZMA, уже протестирован в воплощении xz, и не уделил времени тестированию PPMd.

kirilloid 29 фев 2012 в 15:59

А чем он нестаднартный? Да, PPM жрёт много памяти, поэтому стал распространённым не так давно (относительно LZ77), но вполне стандартен.

НЛО прилетело и опубликовало эту надпись здесь

xiWera 28 фев 2012 в 12:58

1) а где разные типы данных? Кто сказал что в проекте только текст? Зачастую в проекте лежат всякие вспомогательные файлы
2) также забыты parallel версии bzip/gzip и то что в последней версии xz уже понимает ключик -T. Скорости будут соовсем другими.

encyclopedist 28 фев 2012 в 19:23

Если вы прочитаете внимательно, то в статье описаны тестовые наборы. Там есть комбинированный набор (дистрибутив исходных кодов в котором есть и pdf и двоичные данные), бинарный дистрибутив (исполняемый код), двоичные числовые данные, и набор чисто исходных текстов.

Да, многопоточные программы не затрагивались.

alexxz 28 фев 2012 в 13:21

А как же многопоточные архиваторы? Я уже сколько раз сталкивался, что предача данных упирается либо в сеть, либо в процессор, где одинокий gzip жмёт данные. А вот так чтобы данные хорошо жались и при этом упирались в сеть вообще не видел 8)

AterCattus 28 фев 2012 в 13:39

>>bzip2 основан на алгоритме BWT (англ.), остальные же основаны на алгоритме LZ77 (англ.) и его модификациях.

BWT не сжимает данные. Какое-то сравнение теплого с мягким.

bzip2 сжимает Хаффманом. А BWT и MTF просто могут повысить степень сжатия. А могут и не повысить :)

encyclopedist 28 фев 2012 в 19:27

Согласитесь, BWT — ключевой компонент bzip2. Поэтому фраза вполне корректна.

AterCattus 28 фев 2012 в 19:31

Ключевой компонент bzip2 — все-таки Хаффман.

И совсем некорректно говорить, что BWT сжимает что-либо. Это лишь препроцессинг данных, без уменьшения их объема.

encyclopedist 28 фев 2012 в 19:49

Так у меня и не написано что BWT что-то сжимает. bzip ОСНОВАН на BWT. А Хаффман используется и в gzip (и где только ещё не используется) и вряд ли может считаться определяющей чертой bzip2.

AterCattus 28 фев 2012 в 20:12

Я придрался лишь к тому, что BWT и LZ ставятся в один ряд :)

Было бы написано в стиле «Одной из определяющих особенностей реализации bzip2 является BWT, а сжатие выполняется по алгоритму Хаффмана» — я бы промолчал.

kirilloid 29 фев 2012 в 16:00

Там еще RLE есть.

Oblitus 28 фев 2012 в 14:08

Получается, gzip со сжатием больше 5 использовать нет смысла?

encyclopedist 28 фев 2012 в 19:30

В сравнении с xz (или bzip2, если не xz) высокие степени сжатия gzip бессмысленны. Если же по тем или иным причинам их использовать невозможно, то gzip с высокими степенями имеет смысл.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий