Comments 28
Если выяснится, что ответ на этот вопрос положительный, то мы получим крайне интересный прецедент, когда по сути статистические методы оказываются применимы к наблюдениям, природа которых не является вероятностной. Феномен подобного масштаба может даже стать поводом пересмотреть рамки современной математической статистики и границы ее приложения на практике.
Хм, но ведь методу Монте-Карло уже скоро сотня лет как. И одно из его применений — как раз-таки аппроксимация статистическими методами вещей, природа которых не является вероятностной. Поэтому не очень понимаю, о каком прецеденте вы тут говорите.
Хм, но ведь методу Монте-Карло уже скоро сотня лет как. И одно из его применений — как раз-таки аппроксимация статистическими методами вещей, природа которых не является вероятностной
То есть, интегрирование. Но ведь в методе Монте-Карло последовательность точек бросается в пространство аргументов случайно…
Ну, положим, не только интегрирование. В целом то, что вы делаете в статье — пытаетесь найти наилучшую экстраполирующую функцию для данных, природа которых априори неизвестна. Но ведь по сути дела это крайне типичная задача, которую приходится решать при изучении самых разных природных явлений.
Другое дело, что вы рассматриваете чисто статистический подход, не зависящий от природы явления, тогда как обычно пытаются именно понять природу и найти подходящую аналитическую функцию для описания. Но когда это по каким-то причинам невозможно или слишком трудозатратно, статистические методы для предсказаний тоже вполне себе используются.
Грааль не существует.
Подход интересный, но эффективность вероятностного прогнозирования без дополнительных данных о природе последовательности и ее статистических параметрах повысить нельзя.
У многих современных (если это можно сказать про 90-е годы) алгоритмов архивации (семейства PPM), модель — распределение вероятности следующего байта и дальше они этот байт кодируют хаффманом или арифметическим кодером по этому распределению.
Статью не осилил. Однако отмечу, что есть куда более простая стратегия без какого либо теорвера, которая и детерминированнные последовательности быстро раскусывает и на случайных не бьёт лицом в грязь. Можете побороться с ней тут: iq.hyoo.ru
Так выглядит статистика для равновероятного рандома:
А так для соотношения вероятностей 1:10:
А вот так на детерминированной последовательности 1-2-3-4-5-6-7-8-9-...:
А так человеческий фактор, постоянно меняющий стратегию:
Можете попытаться придумать последовательность, которая уйдёт выше 50:-)
Фактически по характеру графика можно понять степень детерминированности последовательности. Если он стремится к 0, то детерминирована. Если к 100, то идёт заглядывание в будущее. Если в промежутке между 0 и 50, то недетерминирована с соответствующим соотношением вероятностей.
Процент неугаданных алгоритмом значений.
Там есть ссылка на гитхаб с исходниками. Если вкратце, то анализируется последовательность с конца на постепенно увеличивающуюся глубину истории, строится модель и по этой модели делается предсказание.
Там есть ссылка на гитхаб с исходниками.
Поискал папочку с названием «abstract», но похоже такой там нет(.
Там код на 50 строчек. Зачем ему абстракт?
Конечно, это эквивалентно заглядыванию в будущее: получаем предсказание и действуем наоборот. Думаю все показатели от 50 до 100 — это использование такой рефлексии в той или иной степени.
Так ничего не мешает точно так же заглянуть в будущее вашего алгоритма и корректировать веса ему в противовес.
Поэтому я и говорю о весах, а не точном значении. Кстати, если добавить в мой алгоритм случайную ошибку восприятия в 1 случае из 10, то это эффективно предотвращает возможность точного предсказания его работы:
Вот так это выглядит без рандомизации:
Но, разумеется, абсолютно предсказуемая последовательность уже не опускается ниже определённого степенью рандома уровня:
Собственно статья посвящена вот какому вопросу:Правильный вопрос такой: Должно ли это наблюдение заставить вас в будущем в качестве прогноза
Пусть некое устройство печатает на бумажной ленте длинную последовательность из ноликов и единичек. Будем считать, что вам не известны ни принцип работы этого устройства, ни конечная длина воспроизводимой им последовательности. Представим, что от вас требуется как можно большее число раз угадать, какой символ будет напечатан следующим, и спустя некоторое время вы обнаруживаете, что среди напечатанных символов число единиц значимо больше числа нулей.
Должно ли это наблюдение заставить вас в будущем в качестве прогноза чаще называть «единицу»?
Статья как раз таки о том, что даже для неслучайных последовательностей стоит чаще называть единицу, если она чаще встречалась раннее. Для стратегии, когда всегда называется более частый символ, в статье указаны несколько "контрпоследовательностей", на которых эта самая стратегия терпит сокрушительное фиаско, а стратегии, называющие единицу лишь чаще, чем ноль, - по прежнему угадывают больше половины символов.
Вашу статью тоже не осилил, извините. Она написана в классическом математическом стиле, отсеивающем 99.99% читателей. А в качестве доказательство практикой — предсказание биржевых котировок вполне подходит, и было бы очень любопытно на это посмотреть. И остаток на счёте в 100 млн. рублей у обычного преподавателя служил бы намного большим стимулов для вникания в суть вашей идеи.
И к слову, случайность — это математическая абстракция в теорвере, её нет в реальном мире. Легко можно сгенерировать непериодическую последовательность, которую вы от случайной методами теорвера отличить не сможете. А я — смогу предсказывать каждый символ со 100% вероятностью, потому что знаю алгоритм.
Да, "чаще" в статье определено именно в терминах результатов случайного эксперимента, то есть чтобы сделать предсказание следующего символа, действительно нужно будет сколько то раз подбросить монетку, кубик или сделать что-то подобное. Насчет языка - не переживайте, бывает оправданным написать статью для 0,01 процента читателей - и то поверьте, это оптимистичный прогноз.
Ни в коем случае не думал подозревать Вас в чем-то плохом. Да, у концепции вероятности есть много проблем, возможно, Вам будет интересна другая моя статья: https://habr.com/ru/post/493800/
Применимы ли индуктивные рассуждения к предсказанию символов в неслучайных последовательностях?