lesobrod May 24 2013 at 08:48

Энтропия и WinRAR

5 min

51K

Algorithms*Mathematics*

+50

Comments 28

eresik May 24 2013 at 09:09

Интересно, а сравнение энтропии исходников программ о чём-нибудь скажет?

lesobrod May 24 2013 at 09:22

Хе-хе… думаю, да. Только анализировать надо не по буквам, а по семантическим единицам — операторам,
переменным.
Очевидно, прога, в которой все операторы и объявленные переменные встречаются равновероятно — это реальный хаос!

xaoc80 May 24 2013 at 09:27

Смотря какой хаос. Если распределение будет близко к гауссу, то это уже не детерминированный хаос, а вероятностная модель, для нее Энтропия Колмогорова — Синая по теории должна к бесконечности стремиться. Для систем с детерминированным хаосом она положительна. Вообще в нелинейной динамике, если система описывается большим числом степеней свободы и на определенном этапе нельзя получить ее описание в конечном числе степеней свободы, говорят, что это Джокер, в противном случае — Русло.

Glowfall May 24 2013 at 23:58

Не всё понял из того что вы сказали, но глядя на ваш ник, в вопросах хаоса судя по всему спорить с вами бессмысленно :)

gricom May 24 2013 at 10:09

Тогда порядок — это прога, в которой половина кода — это if-else :)

Regis May 27 2013 at 22:15

Как раз хороший код не должен сильно жаться. А код с кучей дубликатов и повторов — должен.

xaoc80 May 24 2013 at 09:21

Для динамических систем несколько проще подсчитать показатели Ляпунова (которые связаны с КС энтропией)
А, если не секрет, как Вы КС энтропию считали и для каких систем?

lesobrod May 24 2013 at 09:37

Конечно, связь показателей Ляпунова с КС — гораздо более прямая.
По крайней мере, я реально с выводом разобрался
(а вот доказательства связи сжатия и КС не очень понял, скорее, поверил).

Но то, что ляпуновские показатели проще считать — совсем не факт.
(С алгоритмом Бенеттина долго возился, но сделал на Mathematica).
Для детального анализа, они, конечно, нужны. А для общего сравнения разных данных
метод архивации очень симпатичен.

Системы самые любимые — это биллиарды

xaoc80 May 24 2013 at 09:42

Алгоритм Бенеттина, это если у вас система в аналитическом виде известна
Если у вас временной ряд или вектор, то используется алгоритм Вольфа.

lesobrod May 24 2013 at 09:47

А можно на Вольфа ссылку? Честно говоря, «готовые» временные ряды по Ляпунову еще не анализировал.

xaoc80 May 24 2013 at 09:56

Конечно — метод
Там отличие от Бенеттина незначительное, если есть реализация бенеттина, то допилить можно мгновенно
Но вам еще нужно будет восстановить сам аттрактор методом задержек, найти размерность пространства и т.д., а это уже искусство и шаманство )

lesobrod May 24 2013 at 10:52

Спасибо, действительно, хорошо написано!

Jecky May 24 2013 at 09:22

Последние значения наверняка зависят от количества авторов.

UFO landed and left these words here

lesobrod May 24 2013 at 09:44

Конечно, анализ текста по буквам — это детский сад. Но серьёзных работ по сжатию текстов на уровне семантики не нашёл.

StrangeAttractor May 24 2013 at 10:20

Понятие энтропии используется практически во всех областях науки и техники,
от проектирования котельных до моделей человеческого сознания.

О! А можете дать ссылки на несколько моделей человеческого сознания?

lesobrod May 24 2013 at 10:25

Вот, пожалуйста.
А энтропия и информация мощно используется в модели Джулио Тонони «Information integration».
Мечтаю о ней пост на Хабре написать.

StrangeAttractor May 24 2013 at 13:41

Мечтаю о ней пост на Хабре написать.

Плюсанул карму. Пишите :-) С удовольствием почитаю…

firefish May 24 2013 at 10:34

Подпишите оси координат, если не трудно.

lesobrod May 24 2013 at 10:50

ОК

firefish May 24 2013 at 11:13

С единицами измерения, если не затруднит.

lesobrod May 24 2013 at 11:34

Сегодня уже не успею… Абсциссы — это количество «кусков» данных, ~ 20 кБ кусок
(а для текстов точно сейчас уже не смогу сказать). Энтропия в бит/символ, степень сжатия — безразмерна.

Ruzin May 24 2013 at 19:10

Сколько (минимум!) вопросов надо задать, чтобы узнать, где крестик?
Ответ — «4». Во всех подобных играх минимальное число вопросов будет равно информационной энтропии.
При этом не имеет значения, какие вопросы задавать.

Правильно будет:

Сколько (минимум!) вопросов надо задать, чтобы гарантированно узнать, где крестик?
Ответ — «4». Во всех подобных играх минимальное число вопросов будет равно информационной энтропии.
При этом не имеет значения, какие вопросы задавать.

Очень даже имеет значение, какие вопросы задавать. Просто представьте, если задавать
вопросы типа: «а в первой клетке есть? а во второй есть?.. а в 16-й есть?»

lesobrod May 25 2013 at 04:12

Да, неточно выразился. Под «любыми» имелись в виду оптимальные стратегии,
а они могут быть разными, например вопросы о делимости.

UFO landed and left these words here

stemm May 24 2013 at 23:24

Спасибо за интересную статью.
Возможно дополнением к теме, будет этот пост: habrahabr.ru/post/171759/ где я рассказывал о применении энтропии в машинном обучении. А также, ещё один вариант вывода формулы энтропии Шеннона :-)

lesobrod May 25 2013 at 04:17

Это поиск по Хабру подвёл. Обязательно дал бы ссылку, но почему-то поиск по слову «энтропия» не выдал её.

megatema May 25 2013 at 10:23

Интересная статья, но попробуйте померить степень стахостичности не от осмысленных произведений, а от случайного набора слов (перемешайте случайно слова в имеющихся источниках). Также можно попробовать перемешать имеющиеся в источниках буквы. Есть подозрение, что результат будет аналогичный :), и зависит он не от смысла произведений, а от количества букв в алфавите(можно перемешать буквы и мерить степерь сжатия, как функцию от используемых букв в тексте) и от количества каждой конкретной буквы в тексте. Но это лишь предположение, конечно :)