Да, вы правы.
Просто ставилась цель не протестировать все возможные алгоритмы, а ограничиться только наиболее «стандартными». В результате я посчитал, что основной алгоритм в 7z, LZMA, уже протестирован в воплощении xz, и не уделил времени тестированию PPMd.
1) а где разные типы данных? Кто сказал что в проекте только текст? Зачастую в проекте лежат всякие вспомогательные файлы
2) также забыты parallel версии bzip/gzip и то что в последней версии xz уже понимает ключик -T. Скорости будут соовсем другими.
Если вы прочитаете внимательно, то в статье описаны тестовые наборы. Там есть комбинированный набор (дистрибутив исходных кодов в котором есть и pdf и двоичные данные), бинарный дистрибутив (исполняемый код), двоичные числовые данные, и набор чисто исходных текстов.
А как же многопоточные архиваторы? Я уже сколько раз сталкивался, что предача данных упирается либо в сеть, либо в процессор, где одинокий gzip жмёт данные. А вот так чтобы данные хорошо жались и при этом упирались в сеть вообще не видел 8)
Так у меня и не написано что BWT что-то сжимает. bzip ОСНОВАН на BWT. А Хаффман используется и в gzip (и где только ещё не используется) и вряд ли может считаться определяющей чертой bzip2.
Я придрался лишь к тому, что BWT и LZ ставятся в один ряд :)
Было бы написано в стиле «Одной из определяющих особенностей реализации bzip2 является BWT, а сжатие выполняется по алгоритму Хаффмана» — я бы промолчал.
В сравнении с xz (или bzip2, если не xz) высокие степени сжатия gzip бессмысленны. Если же по тем или иным причинам их использовать невозможно, то gzip с высокими степенями имеет смысл.
Сравнение программ сжатия в применении к передаче больших объёмов данных