Pull to refresh

Comments 19

Не совсем понял сравнение зипования jpg и видео со случайно последовательностью — понятное дело, что и jpg, и видео, не поддаются сжатию архиватора, поскольку и то и другое специально разработанный архивный формат для сжатия картинок / последовательностей картинок. А вот TIFF (картинка без компрессии) жмется архиваторами на ура, до 20% от исходного объема.
В статьях показывается, что минимальная компрессия соответствует максимальной энтропии которая соответствует полностью случайной последовательности. Минимальная компрессия равна нулю (даже меньше, за счёт накладных расходов), что проявляется, например, на сжатых картинках и видео. Вот автор данной статьи и недоумевает, как так получилось, что у не совсем случайных данных (jpg) компрессия ниже (а значит энтропия выше), чем у «полностью случайных данных».

Кстати, в продолжение «высокоинтеллектуального архиватора» — «случайную» последовательность, сгенерённую на ГПСЧ также, как и ПИ можно сжать в [формула генератора][стартовое значение][длина последовательности]
Это как архивировать архив. После сжатия, получается последовательность псевдослучайных символов. Если бы любая случайная последовательность сжималась хоть немного — такой процесс можно было бы продолжать до бесконечности, всё больше сжимая исходный файл. Сам писал архиватор, процесс знаком.

Действительно случайные значения обещает сайт random.org, пишут про генерацию из атмосферного шума
Автор не умеет генерировать случайные числа.
Я скачал файл с random.org
На странице random.org/bytes введите 16384 и Download to file.
НЕ СЖИМАЕТСЯ!
Не завалите radrom.org: вот ссылочка на скачанный мной файл на google drive
Ну так по индукции же доказывается, что есть предел у любого алгоритма сжатия любой последовательности.
TIFF (Tag Image Format File) — вовсе не «картинка без компрессии». Это контейнер, в котором блоки данных помечены специальными тегами (последовательностями бит). Там внутри может быть ЧТО УГОДНО, если это картинка. Внутри TIFFа может быть JPEG, JPEG2000, JBIG, CCITT group 3, 4, и тому подобное. Может быть и любой неизвестный науке (но известный программе-генератору) способ кодирования изображения — хоть deflate обычного битмапа.

В свете сказанного мной становится очевидно, что далеко не любой tiff «жмётся архиваторами на ура».
Да, с помощью разбора и перепаковки арифметическим кодированием. Причём поддержка этого арифметического кодирования есть в самом jpg давно, но никто её не использует, да и не все браузеры/редакторы поддерживают. Именно это обеспечивает до 30% улучшения сжатия.
Из бесплатных утилит, архивирующих jpg, рекомендую PackArc.
> Словарный запас автора текста наверняка не превышает 4096 слов

Эллочка-Людоедка детектед?
«Как подсчитали ученые-лингвисты, в русском языке около 500 тыс.слов. У великого русского поэта А.С. Пушкина, знатока и мастера языка, в литературной речи были всего 21197 слов. У выпускника средней школы словарный запас составляет в среднем от 2000 до 5000 слов, а у человека с высшим образованием — до 8000 слов.»
С просторов Интернета, но весьма похоже на правду.
Похоже, что эту новость принесли на хвосте пегасы с островов туманного Альбиона.
У Пушкина в литературной речи было свыше 100 тысяч слов.
То же самое касается и человека с высшим образованием: где-то раз в пять недопоставка.
активный и пассивный словарный запас сильно различаются. Хотя даже для активного цифры кажутся немного заниженными.
Можно источник про Пушкина?
В этой последовательности нет ни одного случайного символа, и высокоинтеллектуальный архиватор мог бы это распознать.

А если и не распознает, то можно использовать виртуальную машину RAR.
А если распознает что это число Пи и запишет в таком виде — [формула вычисления символов числа Пи][количество символов] где [количество символов] = 1 000 000, то на телефоне такой, вроде бы очень маленький, архив будет очень долго открываться…
Считаю нужным напомнить, что не все задачи, даже требующие ответа да/нет, алгоритмически разрешимы. Описанная хитрость с числом π, в частности, очень хорошо соответствует понятию колмогоровской сложности, вычисление которой является алгоритмически неразрешимой задачей.

Впрочем, никто не мешает нам запомнить несколько частых «популярных» последовательностей (вроде того же π), если мы сумеем показать, что на практике и впрямь возможны ситуации, когда потребуется сжимать запись из 100 цифр какого-нибудь корня третьей степени из семи.
Sign up to leave a comment.

Articles