Oleg_Sh May 28 2013 at 19:57

Энтропия и WinRAR — развернутый ответ

4 min

33K

Algorithms*Mathematics*

From sandbox

+75

Comments 19

cjmaxik May 28 2013 at 20:17

Забавное наблюдение

kyrie May 28 2013 at 21:13

Не совсем понял сравнение зипования jpg и видео со случайно последовательностью — понятное дело, что и jpg, и видео, не поддаются сжатию архиватора, поскольку и то и другое специально разработанный архивный формат для сжатия картинок / последовательностей картинок. А вот TIFF (картинка без компрессии) жмется архиваторами на ура, до 20% от исходного объема.

-2

Vestild May 28 2013 at 21:37

В статьях показывается, что минимальная компрессия соответствует максимальной энтропии которая соответствует полностью случайной последовательности. Минимальная компрессия равна нулю (даже меньше, за счёт накладных расходов), что проявляется, например, на сжатых картинках и видео. Вот автор данной статьи и недоумевает, как так получилось, что у не совсем случайных данных (jpg) компрессия ниже (а значит энтропия выше), чем у «полностью случайных данных».

Кстати, в продолжение «высокоинтеллектуального архиватора» — «случайную» последовательность, сгенерённую на ГПСЧ также, как и ПИ можно сжать в [формула генератора][стартовое значение][длина последовательности]

15432 May 28 2013 at 21:47

Это как архивировать архив. После сжатия, получается последовательность псевдослучайных символов. Если бы любая случайная последовательность сжималась хоть немного — такой процесс можно было бы продолжать до бесконечности, всё больше сжимая исходный файл. Сам писал архиватор, процесс знаком.

Действительно случайные значения обещает сайт random.org, пишут про генерацию из атмосферного шума

easyman May 29 2013 at 00:17

Автор не умеет генерировать случайные числа.
Я скачал файл с random.org
На странице random.org/bytes введите 16384 и Download to file.
НЕ СЖИМАЕТСЯ!
Не завалите radrom.org: вот ссылочка на скачанный мной файл на google drive

easyman May 29 2013 at 00:23

Прошу прощения за коммент не в тему. Поздно редактировать :(

Halt May 29 2013 at 10:33

Ну так по индукции же доказывается, что есть предел у любого алгоритма сжатия любой последовательности.

merlin-vrn May 28 2013 at 22:45

TIFF (Tag Image Format File) — вовсе не «картинка без компрессии». Это контейнер, в котором блоки данных помечены специальными тегами (последовательностями бит). Там внутри может быть ЧТО УГОДНО, если это картинка. Внутри TIFFа может быть JPEG, JPEG2000, JBIG, CCITT group 3, 4, и тому подобное. Может быть и любой неизвестный науке (но известный программе-генератору) способ кодирования изображения — хоть deflate обычного битмапа.

В свете сказанного мной становится очевидно, что далеко не любой tiff «жмётся архиваторами на ура».

+14

entze May 29 2013 at 12:13

JPEG файлы поддаются сжатию, причем неплохо, но с помощью спец. алгоритмов
www.maximumcompression.com/data/jpg.php

en.wikipedia.org/wiki/StuffIt#StuffIt_Image_Format_.28SIF.29

DjOnline Jun 3 2013 at 16:25

Да, с помощью разбора и перепаковки арифметическим кодированием. Причём поддержка этого арифметического кодирования есть в самом jpg давно, но никто её не использует, да и не все браузеры/редакторы поддерживают. Именно это обеспечивает до 30% улучшения сжатия.
Из бесплатных утилит, архивирующих jpg, рекомендую PackArc.

bachin May 28 2013 at 21:59

> Словарный запас автора текста наверняка не превышает 4096 слов

Эллочка-Людоедка детектед?

-7

0xE0 May 28 2013 at 22:25

«Как подсчитали ученые-лингвисты, в русском языке около 500 тыс.слов. У великого русского поэта А.С. Пушкина, знатока и мастера языка, в литературной речи были всего 21197 слов. У выпускника средней школы словарный запас составляет в среднем от 2000 до 5000 слов, а у человека с высшим образованием — до 8000 слов.»
С просторов Интернета, но весьма похоже на правду.

Rational_Yurij May 29 2013 at 17:56

Похоже, что эту новость принесли на хвосте пегасы с островов туманного Альбиона.
У Пушкина в литературной речи было свыше 100 тысяч слов.
То же самое касается и человека с высшим образованием: где-то раз в пять недопоставка.

Mendel May 29 2013 at 18:06

активный и пассивный словарный запас сильно различаются. Хотя даже для активного цифры кажутся немного заниженными.

0xE0 May 29 2013 at 20:39

Можно источник про Пушкина?

Lockal May 28 2013 at 22:23

В этой последовательности нет ни одного случайного символа, и высокоинтеллектуальный архиватор мог бы это распознать.

А если и не распознает, то можно использовать виртуальную машину RAR.

setsergey May 29 2013 at 10:43

А если распознает что это число Пи и запишет в таком виде — [формула вычисления символов числа Пи][количество символов] где [количество символов] = 1 000 000, то на телефоне такой, вроде бы очень маленький, архив будет очень долго открываться…

JDima May 29 2013 at 11:45

Не сказать чтобы долго…
play.google.com/store/apps/details?id=com.aerodroid.speedpi

hacklex May 30 2013 at 17:56

Считаю нужным напомнить, что не все задачи, даже требующие ответа да/нет, алгоритмически разрешимы. Описанная хитрость с числом π, в частности, очень хорошо соответствует понятию колмогоровской сложности, вычисление которой является алгоритмически неразрешимой задачей.

Впрочем, никто не мешает нам запомнить несколько частых «популярных» последовательностей (вроде того же π), если мы сумеем показать, что на практике и впрямь возможны ситуации, когда потребуется сжимать запись из 100 цифр какого-нибудь корня третьей степени из семи.

Show the best of all time