AloneCoder 3 мар 2020 в 12:46

Zip-файлы: история, объяснение и реализация

76 мин

97K

Блог компании VKАлгоритмы*История ITНенормальное программирование*Совершенный код*

Перевод

+174

Комментарии 45

Astroscope 3 мар 2020 в 13:56

Монументальный труд, спасибо!

Serge81 3 мар 2020 в 16:10

Огромная работа…
Спасибо за исходники!

Jogger 3 мар 2020 в 16:49

Чёрт, кдпв чертовски правильная. А теги нет.

amarao 3 мар 2020 в 17:24

Внезапно, пошёл по ссылкам. Сегодня день, когда истёк патент на ARJ (запахло молодостью?)

2020-03-03
Application status is Expired — Lifetime

https://patents.google.com/patent/US5140321

SignallerK 3 мар 2020 в 19:10

Прикольно также что на тот патент уже в своих патентах ссылаются куча технологических гигатов (как то Microsoft, Apple, Citrix и тд).
Вот это годный пример переиспользования знаний.

a5b 3 мар 2020 в 21:03

По мнению Патентов Гугла каждый день после сентября 2011 для этого патента (lz77+hashing) является днем истечения его срока. Например, 2 июня 2019 http://web.archive.org/web/20190602195814/https://patents.google.com/patent/US5140321
2011-09-04 Anticipated expiration legal-status Critical
2019-06-02 Application status is Expired — Lifetime legal-status Critical
https://news.ycombinator.com/item?id=20182019 "Google patents always shows the current date for that line."
В общем случае патент действует около 20 лет от даты Application — https://en.wikipedia.org/wiki/Term_of_patent_in_the_United_States

amarao 3 мар 2020 в 21:38

Ох, а я попался.

zbestr 3 мар 2020 в 18:04

Шикарно!
Ощущение погружения в магию.
Всегда хотелось знать что там происходит за полосой прогресса.
Ещё интересней было бы это всё визуализировать для наглядности. Т.е. чтобы выводился лог действий, создаваемые таблицы, списки и т.д.
Чтобы заварить чайку, взять пару круассанов, поставить пару гигов на сжатие и вальяжно растянуться в кресле…

v1000 3 мар 2020 в 22:40

В свое время архивировали 1 Мегабайт на 8088. 30 минут. 1 Мегабайт.

AmartelRU 3 мар 2020 в 19:26

Прочитал про некий «беспрефиксный» код и удивился.
Да, в оригинале «Such a code is called a prefix-free code, or sometimes just prefix code», но у нас всё же используется термин «префиксный код». Так сказать, always, а не sometimes.

evil_random 3 мар 2020 в 19:36

Один из лучших материалов, которые я когда либо читал на Хабре.

evil_random 3 мар 2020 в 19:36

В блоге mail.ru ¯\_(ツ)_/¯

ferasinka 3 мар 2020 в 23:36

Жаль, что это перевод…

НЛО прилетело и опубликовало эту надпись здесь

VEG 4 мар 2020 в 01:29

Перевести хорошую статью — тоже труд.

Arris 4 мар 2020 в 18:21

На оригинальную статью уходит очень много времени.

НЛО прилетело и опубликовало эту надпись здесь

Squoworode 10 мар 2020 в 00:27

Ну ведь прямо там пятым примечанием ссылка обратно на хабр, где описывается новейшая (улучшающая традиционную рекурсивную упаковку архива в архив) техника зип-бомб от 2019 года, использовано рекурсивное описание группы файлов друг через друга. Видимо, рекурсивное создание бесконечного потока данных разархиватором не поддерживается.

axe_chita 4 мар 2020 в 05:07

Спасибо за хороший перевод! И оффлайн копию в комп сохранить на память :)

SandroSmith 5 мар 2020 в 16:09

Заархивировать не забудьте.

axe_chita 6 мар 2020 в 06:43

Естественно заархивирую, сначала копию в ARJ, LHA, HA, RAR, 7Z, и конечно в ZIP :)

aliend 4 мар 2020 в 11:09

Тему арифметического кодирования приподнять бы посильнее.
Вот где действительная магия: упаковка по динамическому словарю с нецелым количеством бит в символах в один проход и достижение теоретической энтропии!

Deosis 4 мар 2020 в 13:03

Арифметическое кодирование описывается довольно просто:

Начинаем с полуинтервала [0; 1)
На каждом шаге текущий полуинтервал делим на подполуинтервалы.
Длины будут соответствовать вероятности встретить соответствующую букву.
Выбираем подполуинтервал, соответствующий текущей букве сжимаемого сообщения.
Повторить для всех букв сообщения.
Число из полученного полуинтервала и будет закодированным сообщением.

aliend 4 мар 2020 в 13:20

В бытность свою студентом я реализовал этот алгоритм на чистом ассемблере в качестве курсовой работы. Ваше описание, равно как почти все встречающиеся в Сети, при воплощении в код теряют свою кажущуюся простоту и приобретают элементы «черной магии» в постоянных битовых сдвигах для наполнения очередного байта выходного потока.

Deosis 5 мар 2020 в 09:09

Я тоже в студенчестве реализовывал такой алгоритм, но для себя.
Если выделить отдельный класс "битовый поток", то туда уйдет большая часть сдвигов.
Оставшееся — это обработка границ полуинтервала. Там 2 тривиальных случая и один посложнее:

Верхняя граница меньше 0,5. Тогда пишем в выходной поток 0 и раздвигаем границы вдвое.
Нижняя граница больше 0,5. Тогда пишем в выходной поток 1 и раздвигаем границы вдвое.
Обе границы близки к 0,5. Тогда в выходной поток ничего писать не нужно, но для нескольких старших бит осталось всего два варианта: 011...1 или 100...0. Это можно запомнить и снова раздвинуть границы вдвое.

KVL01 4 мар 2020 в 13:12

Хотя файл архива .ZIP, хоть офисный документ, хоть какой-то свой кастомный формат, а в первых двух байтах файла записано «PK». В статье сказано, что Zip-файл не требует никакой сигнатуры или магического числа в начале файла, зачем тогда их пишут? Просто дань уважения Филу Катцу?

kom09 4 мар 2020 в 18:18

А фиг его знает. Но для примера — упакованное расширение для Google Chrome представляет собой zip-файл с расширением .crx в начале!!! которого есть специальный заголовок, только после которого, относительно далеко от начала, можно найти заголовок PK самого zip. И если скормить этот файл WinRar'у то он не подавится, а признает в нем zip-архив. Подозреваю, что по заголовку и находит.

BulldozerBSG 4 мар 2020 в 19:02

локальный заголовок файла

Squoworode 10 мар 2020 в 00:18

Написано, что файл в целом не обязан иметь сигнатуру. А сигнатура «PK» 0x05 0x06 — это заголовок архивной записи. Собственно, это и используется для создания SFX-архивов: он начинается, как исполняемый файл, а где-то в конце к нему приклеены архивные записи.

jimmyjonezz 4 мар 2020 в 17:09

Жаль в заключении нет (или я не увидел) практическое сравнение перечисленных в статье методов сжатия. Технически подкованные специалисты конечно же поймут имеющиеся приемущества и недочеты, а вот люди вроде меня не совсем… но было очень познавательно.

Deosis 5 мар 2020 в 09:31

Можно посмотреть здесь.

НЛО прилетело и опубликовало эту надпись здесь

Cerberuser 5 мар 2020 в 07:21

Теоретически, можно и короче — gcc.c.

vladkorotnev 5 мар 2020 в 08:24

А можно и позакрученнее :-)

> dir A:
* pkunzip.arj
* arj.rar
* unrar.zip

Squoworode 9 мар 2020 в 23:54

Есть и покороче: ha.ha

speshuric 4 мар 2020 в 22:43

Вроде как и знал всё это, и deflate реализовывал из любопытства, а всё равно прочитал на одном дыхании.

4ITEP 4 мар 2020 в 23:59

ШОК! Реклама Flex Paste в блоге mail.ru на Хабре
Вопрос к автору: сколько заплатили?

Acuna 10 мар 2020 в 12:31

ШОК! Реклама GitHub в виде ссылки на исходники в большинстве статей на Хабре
Вопрос к авторам: сколько заплатили?

4ITEP 28 мар 2020 в 05:46

оффтоп

Уже и попетросянить нельзя?!

Acuna 28 мар 2020 в 16:56

Да если бы это петросянство было, в большинстве случаях такие комменты на серьезных щах оставляют. Хорошо если вы и правда попытались пошутить.

Devilar 5 мар 2020 в 08:06

Еще не все прочитал, но уже вопросы:
«Обратите внимание, что из-за возможного перекрытия мы не можем использовать memcpy или memmove.»
Не знаю про какой стандарт речь, и были ли в более ранних стандартах отличия, но C99 накладывает ограничение о недопустимости перекрытия только на memcpy. А memmove — можно использовать для пересекающихся регионов.

Cerberuser 5 мар 2020 в 08:52

Здесь, возможно, не совсем корректный перевод. Я так понял, суть в том, что, так как исходный и результирующий интервалы могут перекрываться, часть байт исходного интервала может быть банально неизвестна в начале копирования. К примеру, "ababa" может быть закодировано как "ab(3,2)", т.е. "отступить на 2 символа назад и скопировать 3 символа": третий копируемый символ будет отсутствовать на положенном месте, пока мы не скопируем первый.

Devilar 5 мар 2020 в 09:16

Согласен, причина в том что исходный блок изначально полностью отсутствует в памяти. memmove должен просто переместить блок вперед(для чего начнет копирование с конца, чтобы не испортить), а раз блока как такового еще нет, то нужный результат не будет достигнут. Поэтому и нужен свой алгоритм копирования. В итоге memcpy нельзя из-за ограничения по пересечению, что на мой взгляд сводится к тому что стандарт не регламентирует с какой стороны начнется копирование и какими частями, а memmove нельзя по описанной ранее причине.

onthefly 11 мар 2020 в 22:08

Компания обвинила его в нарушении торгового знака

Правильный перевод термина trade mark — «товарный знак».

AntonioGrande 22 июл 2023 в 23:01

Спасибо! Очень понравилось!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий