Комментарии / Профиль Sistemaalex / Хабр

Sistemaalex 10 авг 2019 в 22:40

Почему 1/4 по формуле 1/16.

Sistemaalex 10 авг 2019 в 22:38

Вероятности выпадения орла или решки подряд несколько раз, то есть серии симметричны. Да и модераторы Хабра просили избегать использования терминов из СССР. Так тогда термин «орел» был заменен на «герб».
Вот я и заменил формулировку «серия из гербов» на «выпадения одинаковых сторон монеты подряд». С другой стороны это переводное издание и, вполне возможно, что в оригинале была другая формулировка.
Предполагаю, что это одно и то же. Так как когда в следующее выбрасывание после первого герба выпадает снова герб, то это одинаковая сторона с предыдущим выбрасыванием

Sistemaalex 10 авг 2019 в 19:21

Начну с определения игра для экономики, оно сейчас сформировалось, поэтому не судите строго. Игра — это потенциально выгодные трансакции между двумя или более субъектами на основе установленных ими правил. Эти трансакции по длительности менее длительности делового цикла самой эффективной отрасли экономики.
То есть та стратегия которую вы описали, это действия институционального характера которые свойственны инвестору.
Поэтому предполагаю, что если б написал «инвестор» вместо «трейдера» то ваше замечание было б обоснованным

Sistemaalex 10 авг 2019 в 17:23

Подумаю. Так сразу не готов что-то ответить

Sistemaalex 10 авг 2019 в 17:08

По поводу картинки, взял ее для украшения публикации.
Согласен термин «белый шум» выработался из опыта эксплуатации техники, неважно: механика, радио, информатика. Но кто запретил его использовать в работе со случайными процессами. Критерий один — равномерно распределенная случайная величина. Тогда исследование, допустим нормального распределения, как случайный процесс в виде положительное/отрицательное отклонение от матожидания, чем отличается от бросания монеты, ответ ничем. И в монете, и в нормальном распределении, когда его исследуют по принципу 1-0, распределение вероятностей становится равномерным.
Но вернемся к картинке. Процесс ее представления в этой публикации был стандартным:
1) Запрос поисковику, получение от него отранжированных по его алгоритмам для меня результатов;
2) Выбор мною нескольких вариантов из результатов выдачи;
3) Из выбранного набора, я выбрал один, который представлен здесь.
То есть происходил как минимум три раза процесс сопоставления и в результате я выделил один с наибольшим приоритетом. То есть проведена упорядоченность и произошло детерминирование. То есть представленная картинка уже не случайна.
Но как вы написали скорей всего тесты на случайность она пройдет.
Отсюда возникает ситуация, с одной стороны перед нами не случайный ряд, а с другой стороны, этот ряд пройдет тесты на случайность.
В данном рассуждении, картинка взята как текущий объект. А сколько таких данных, которые нейросетями отнесены к кластеру содержащих зависимости, а если отправить эти данные в тестовые системы, то тесты отнесут их к случайным?
В чем проблема? Проблема в том, что при работе с большими данными, существующие тесты не дают уже нужной надежности кластеризации.
Поэтому и ухватился за эту теорему, что она дает предположение, что опирается на естественные процессы происходящие при случайном формировании ряда.
Поэтому считаю, что то что вы описали и есть проблема которую нужно решать. Получиться или не получиться не знаю. Но попытку сделал

Sistemaalex 29 июл 2019 в 10:50

Цепочка из 20 пикселей одного значения может образоваться за счет случайности и в результате неслучайности. Вероятность случайности она просчитывается до средней и дисперсии. А неслучайность может появится за счет других цепочек. Допустим цепочки из 7 и 6 пикс, их должно быть 3, для 7 и 6 для 6 (в среднем), в ряду из 448 (беру случайно эти значения). Как пример из цепочек 7, перекинули в ряд из 20 — по 3 пикселя, то есть 9, а из цепочек 6, из пяти по 2 и из одной 1. Тогда у нас цепочка 7 и 6 исчезла вообще, а количество цепочек в 4 пикс увеличилась на 8 и, цепочек в 5 пикс увеличилась на 1. То есть, если появление цепочки в 20 пикс, произошло случайно, то исчезновение цепочек 7 и 6, и увеличение цепочек 4 и 5, тоже должно находится в допустимом интервале. Если они вышли за допустимый интервал, то это уже не белый шум.
Эта логика следует из того, что количество вариантов ограничено для каждой длины ряда. То есть мы попросту можем перетасовать пикс, но не можем добавить. И если перед нами белый шум, то вероятности всех цепочек считаются по Бернули. Если пошли отклонения, то это уже следствия системности.

Sistemaalex 22 июл 2019 в 12:34

Там все вероятности определяются комбинаторикой. То есть для ряда длиной миллион, число перестановок 2^1000000. То есть нижнее значение вероятности, когда весь ряд состоит из нулей или 1, 2^(-999999). Это с одной стороны означает, что пространство ограничено, а с другой как работать с такими числами. Но самое интересное как Эрдеш и Реньи пришли к этому граничному значению: n =log(2)N

Sistemaalex 22 июл 2019 в 06:43

Наверное не смог выразить четко тут логика основывается на законе «отрицания отрицания» плюс накладывается то, что от вероятности целых чисел в схемах Бернулли происходит переход к нецелым числам, в нашем случае (8,765). Я для упрощения примера и проводил округления до целого нижнего. Так как вероятности в теореме Эрдеша определяются сочетаниями, то цепочка в и в 20 и выше участвуют в определении вероятности. То есть при определении вероятности случайности, если появилась цепочка в 20 символов то она считается как цепочка 8,765 символов, то есть как одна из составляющих общей вероятности для 8,765.
Пример, возьмем рядя 4 символа, тогда цепочка log(2)4 = 2, тогда вероятность цепочки из 2 символов составляет рm>2(2) =14/16, и эти 14/16 состоят из вероятности, что существуют две цепочки по 4 символа р(4) = 2/16, 4 цепочки из 3 символов р(3) = 4/16 и 8 чистых цепочек из р(2) = 8/16. Все вместе и получается
рm>2(2) =р(2)+р(3)+р(4)=8/16+4/16+2/16=14/16.
Но для ряда из 4 значений знаменатель равен 16 = 2^4, а для ряда из 448 знаменатель 2^448.
То когда мы определяем вероятность для цепочки из 8 в ряде из 448 значений, мы получаем формулу следующего вида:
рm>8(8) =р(8)+р(9)+...+р(20)+...+р(448)
И тогда эти слагаемые, по моему предположению: ...+р(20)+...+р(448) становятся, из-за знаменателя 2^448 очень маленькими.
Вот так
р(448) = 2/(2^448) = 2^-447
Наверное таланта не хватило, все это прояснить

Sistemaalex 21 июл 2019 в 22:24

Попробую показать механизм действия этой теоремы.
Вот у нас есть ряд 2^{19} = 524 288, последовательных данных.
Тогда, допустим с вероятностью р=0,96 (эту вероятность взял пока приблизительно), если эта выборка из 524288 данных является белым шумом она должна содержать ряд из 19 последовательных одинаковых значений (±).
Но у нас этого нет. Тогда если она состоит из двух подпоследовательностей по 524288/2 = 262144 номеров, она должна содержать два ряда из 18 последовательных одинаковых значений (±) с вероятностью каждого, опять допустим, р_{1/2} = 0,95. Но у нас и этого нет. Каждый из двух подрядов можно разделить на еще два подряда, то есть общий ряд можно разделить на 4 подряда из 524288/4 = 131072. Каждый квантильный подряд с вероятностью, опять допустим, р_{1/4} = 0,94, должен содержать ряд из 17 последовательных одинаковых значений (±). Но у нас их три. Тут работает схема Бернулли.
То есть вероятность того, что в четырех испытаниях выпадет три успеха, где вероятность успеха р_{1/4} = 0,94, равна
Р_4(3) = 0,94*0,94*0,94*(1-0,94) = 0,04983504
То есть вероятность того что ряд из 524 288 значений является белым шумом около 5%, а соответственно вероятность того, что в нем существуют какие-то зависимости 95%.
Такую вероятность мы не имеем права игнорировать

Sistemaalex 21 июл 2019 в 20:11

Спасибо за участие

Sistemaalex 21 июл 2019 в 20:10

Согласен все это есть сейчас. Так разбираю тему и выскакивает несколько нестыковок. Ну допустим может быть так, что не то, что 30-50 наблюдений, в бигдата, невозможно будет сделать. А даже когда один и тот же процесс, ну допустим в химической промышленности, то есть ставим полностью дублирующую систему мониторинга, в каждой точке наблюдения, стоят по два датчика, датчики идентичны. Один подключен к одной системе мониторинга, а другой к другой. Системы мониторинга идентичны, одно и то же оборудование, одно и то же программное обеспечение, одни и те же параметры фиксируются каждой системой, с единым временем. Но они не пересекаются, то есть нет согласования и передачи данных от одной к другой системе и в центре управления сидят разные операторы. То есть кажется, что данные будут идентичны, но может оказаться так, что даже сопоставлять эти данные нельзя будет. А уж не говоря о том, что выявлять статистику.

Sistemaalex 21 июл 2019 в 08:54

Наверное, в применении к биологии, можно подобрать модель хищник-жертва. Жертва приходит на поляну, оценивает ситуацию, принимает решение о безопасности. Далее ее нейросистема перекодирует информацию об окружающей обстановке, с ключевыми моментами, а остальное как белый шум. Далее она периодически сопоставляет окружающую картинку с записью. Если образ зафиксирован с большими элементами белого шума, то он требует немного ресурсов, а природа, как мы знаем очень экономна. И тогда, в том образе, много последовательных рядов с одинаковыми сигналами. Когда хищник подкрадывается, то он старается это делать максимально плавно, чтобы изменяющаяся картинка не различалась с образом зафиксированным у жертвы. Если хищник действует неосторожно, то последовательные цепочки в образе жертвы начинают рваться, исчезать. И для жертвы это простой сигнал об изменении окружающей обстановке.
Это первая модель, которая пришла в голову, чтоб объяснить этот механизм.

Sistemaalex 21 июл 2019 в 08:12

По другому скажу. Если в последовательности из 10000 сигналов, НЕ обнаружено НИ ОДНОЙ последовательной цепочки из 14 и более одинаковых сигналов, то это близкий к стопроцентной вероятности признак, что последовательность является НЕ случайной. То есть не белый нум

Sistemaalex 21 июл 2019 в 07:37

Еще разбираюсь. На данный момент видно следующее, для вашего случая.
Признаком белого шума для ряда из 10000 будет появление цепочки из 13 и БОЛЕЕ одинаковых сигналов подряд. То есть, если у Вас сработали 14 синапсов это очень существенный признак, что сигналы являются следствием белого шума. Там, по моим оценкам, вероятности 95% и больше, для ряда из 10000.
Сейчас пару идей созрело пытаюсь их отработать, чтоб эту задачу привести к нормальному инструменту

Sistemaalex 21 июл 2019 в 07:37

Выше ответил

Sistemaalex 18 июл 2019 в 23:56

Наверное поэтому и написал этот материал, вдруг кто нибудь обнаружит эту теорему с доказательством и поделиться находкой.
Возможно там бы, из доказательства, было бы понятно, как обращаться с конечными цепочками, как относиться к цепочкам log2(n)+1. Как понимать, если цепочка log2(n) не единственная. Я привел один пример, но по моим размышлениям этих последствий может быть значительно больше. Об этом в конце намекнул, когда написал, что выработанная практика статистики исследует, с точки зрения доступного человеку объема, такой объем который память не может вместить. И вполне возможно, что если посмотреть на большие данные, с точки зрения их размерности, то обнаружатся такие закономерности, о которые сейчас даже в фантастике не описаны

Sistemaalex 18 июл 2019 в 12:46

Задали в личку вопрос: Орлов все-таки, или решек?
Ответ такой:
Монете все равно, как мы назовем ее стороны: «решка-орел», «1-0», «аверс-реверс», «герб-лицевая». «Герб» написал так как в книге дается такая формулировка. Так как с этим пытался разобраться, пытаясь найти доказательство в оригинале или переводе и не нашел его, поэтому и акцентировал в примечании. Деталь существенная, так как от того, что они считали максимум или минимум можно понимать, как этот индикатор можно использовать, кроме того что описал.
По сути мы можем обозначить «1», любую сторону, тогда вторая сторона становится 0.

Sistemaalex 18 июл 2019 в 09:06

В работе аналитика немного по другому, вот цитата из вашего материала:

Если статистические погрешности всегда можно обсчитать аккуратно, то систематические погрешности — это немножко искусство. Более того, из многолетнего опыта известно, что сильные систематические отклонения уж точно не описываются нормальным распределением, и потому для них эти правила пересчета не справедливы. Так что даже если экспериментаторы всё перепроверили много раз и указали систематическую погрешность, всегда остается риск, что они что-то упустили из виду.

Систематическая погрешность при работе с большими данными заключается в том, что повторить опыт получения этих данных и получить их повторно практически невозможно. Так как вернуть, допустим систему ERP крупного предприятия, в состояние, которое соответствовало на дату, допустим, год назад, а потом фиксировать данные работы этой системы следующий год, для сравнения с имеющимися, невозможно. То есть аналитик может расширить, имеющиеся у него данные, но повторить опыт возможности нет. И это уже систематическая ошибка

Кругом враги. Как параноику планировать свою работу

Sistemaalex 16 июл 2019 в 13:01

Итогом, одно единственное предложение.
Сделать тест для претендентов на должность, для выявление знаком ли человек с этими состояниями мозга. Если знаком, то брать на работу. Если нет, то дальше и разговаривать не о чем.

План вернулся в экономику

Sistemaalex 14 июл 2019 в 13:51

А может дело в другом. Читаем:

Но сама идея подчинения производственных решений и инвестиций долгосрочным целям, а не прибыли, уже в ходу. Из этого строится экономическое планирование.

То есть организуются крупномасштабные проекты, на десятки лет, и к этим предприятиям прикрепляются миллионы крепостных. А то, что работники будут считать себя свободными, так пусть считают. В масштабах мировой экономики, подобная ротация не существенна. Пример — от изменения, в списочном составе воинской части, количество свободных индивидуумов в государстве не изменяется.