Pull to refresh

Comments 28

Если выяснится, что ответ на этот вопрос положительный, то мы получим крайне интересный прецедент, когда по сути статистические методы оказываются применимы к наблюдениям, природа которых не является вероятностной. Феномен подобного масштаба может даже стать поводом пересмотреть рамки современной математической статистики и границы ее приложения на практике.

Хм, но ведь методу Монте-Карло уже скоро сотня лет как. И одно из его применений — как раз-таки аппроксимация статистическими методами вещей, природа которых не является вероятностной. Поэтому не очень понимаю, о каком прецеденте вы тут говорите.

Хм, но ведь методу Монте-Карло уже скоро сотня лет как. И одно из его применений — как раз-таки аппроксимация статистическими методами вещей, природа которых не является вероятностной

То есть, интегрирование. Но ведь в методе Монте-Карло последовательность точек бросается в пространство аргументов случайно…

Ну, положим, не только интегрирование. В целом то, что вы делаете в статье — пытаетесь найти наилучшую экстраполирующую функцию для данных, природа которых априори неизвестна. Но ведь по сути дела это крайне типичная задача, которую приходится решать при изучении самых разных природных явлений.


Другое дело, что вы рассматриваете чисто статистический подход, не зависящий от природы явления, тогда как обычно пытаются именно понять природу и найти подходящую аналитическую функцию для описания. Но когда это по каким-то причинам невозможно или слишком трудозатратно, статистические методы для предсказаний тоже вполне себе используются.

Безусловно так, но ведь применение статистических методов вне контекста случайности требует какого-то обоснования. Не всегда же они применимы
TL;DR;
Грааль не существует.
Подход интересный, но эффективность вероятностного прогнозирования без дополнительных данных о природе последовательности и ее статистических параметрах повысить нельзя.
Если последовательность случайна, то я, конечно же, с вами соглашусь. Но, похоже, можно предложить такое обобщение статистики, которое будет пригодным и для неслучайных последовательностей тоже. Не уверен насчет прогнозирования, но насчет задачи адаптации какой-то результат у меня получился.
А я всё ждал, когда повествование свернёт к созданию моделей для архиваторов.
У многих современных (если это можно сказать про 90-е годы) алгоритмов архивации (семейства PPM), модель — распределение вероятности следующего байта и дальше они этот байт кодируют хаффманом или арифметическим кодером по этому распределению.
Да, было бы интересно протестировать идеи статьи на архиваторах. Там правда все чуть-чуть сложнее выглядит. Дисбаланс частот употребления слов тексте скорее всего будет, однако это не та закономерность, на которой можно срезать много информационного объема. Лично мне кажется перспективным ловить статистические зависимости между частотами употребления слов и ближайшим контекстом, но опять же, — это только в качестве маленького исследовательского проекта. Если речь идет об осмысленных текстах на естественных языках, то там скорее всего можно и напрямую грамматику учесть и глобальный контекст слов как-то вычислить.

Статью не осилил. Однако отмечу, что есть куда более простая стратегия без какого либо теорвера, которая и детерминированнные последовательности быстро раскусывает и на случайных не бьёт лицом в грязь. Можете побороться с ней тут: iq.hyoo.ru


Так выглядит статистика для равновероятного рандома:


image


А так для соотношения вероятностей 1:10:


image


А вот так на детерминированной последовательности 1-2-3-4-5-6-7-8-9-...:


image


А так человеческий фактор, постоянно меняющий стратегию:


image


Можете попытаться придумать последовательность, которая уйдёт выше 50:-)


Фактически по характеру графика можно понять степень детерминированности последовательности. Если он стремится к 0, то детерминирована. Если к 100, то идёт заглядывание в будущее. Если в промежутке между 0 и 50, то недетерминирована с соответствующим соотношением вероятностей.

Спасибо, я только не совсем понял, что именно показывает график. Интересно еще, как выглядит «совсем простая стратегия».

Процент неугаданных алгоритмом значений.


Там есть ссылка на гитхаб с исходниками. Если вкратце, то анализируется последовательность с конца на постепенно увеличивающуюся глубину истории, строится модель и по этой модели делается предсказание.

Там есть ссылка на гитхаб с исходниками.

Поискал папочку с названием «abstract», но похоже такой там нет(.

Там код на 50 строчек. Зачем ему абстракт?

Я ведь не программист. Одно могу сказать точно: если использованный там алгоритм не использует (псевдо)случайные шаги, то можно привести такую последовательность нажатий кнопок «правая» «левая», в которой он (алгоритм) не угадает ни одной.

Конечно, это эквивалентно заглядыванию в будущее: получаем предсказание и действуем наоборот. Думаю все показатели от 50 до 100 — это использование такой рефлексии в той или иной степени.

Так статья именно о том, как построить алгоритм предсказания, который на наихудшей для себя (а не просто случайно) последовательности угадает символов, не сильно меньше, чем самый надежный алгоритм в своей наихудшей последовательности, и при этом, если вдруг последовательность проявит некоторую закономерность — угадает больше.

Так ничего не мешает точно так же заглянуть в будущее вашего алгоритма и корректировать веса ему в противовес.

Мешает принцип, по которому мой алгоритм управляет не выбором следующего символа, а вероятностями, с которыми каждый из символов может стать следующим.

Поэтому я и говорю о весах, а не точном значении. Кстати, если добавить в мой алгоритм случайную ошибку восприятия в 1 случае из 10, то это эффективно предотвращает возможность точного предсказания его работы:


image


Вот так это выглядит без рандомизации:


image


Но, разумеется, абсолютно предсказуемая последовательность уже не опускается ниже определённого степенью рандома уровня:


image

Собственно статья посвящена вот какому вопросу:
Пусть некое устройство печатает на бумажной ленте длинную последовательность из ноликов и единичек. Будем считать, что вам не известны ни принцип работы этого устройства, ни конечная длина воспроизводимой им последовательности. Представим, что от вас требуется как можно большее число раз угадать, какой символ будет напечатан следующим, и спустя некоторое время вы обнаруживаете, что среди напечатанных символов число единиц значимо больше числа нулей.

Должно ли это наблюдение заставить вас в будущем в качестве прогноза чаще называть «единицу»?
Правильный вопрос такой: Должно ли это наблюдение заставить вас в будущем в качестве прогноза чаще только называть «единицу»? Очевидно, если вероятность единицы больше — то и угадываться она будет чаще при такой стратегии, и большего из теорвера не выжать. А чтобы выжать больше, нужно уже спектральный анализ привлекать. Ну и мат. модель — это конечно хорошо, но где проверка на практике?

Статья как раз таки о том, что даже для неслучайных последовательностей стоит чаще называть единицу, если она чаще встречалась раннее. Для стратегии, когда всегда называется более частый символ, в статье указаны несколько "контрпоследовательностей", на которых эта самая стратегия терпит сокрушительное фиаско, а стратегии, называющие единицу лишь чаще, чем ноль, - по прежнему угадывают больше половины символов.

Так это чаще математически как описывается? Чередовать 1,1,0,1,1,0,1,1...? Бросать кубик, если 1 или 2 то 1 иначе 0? Какие-то другие алгоритмы? Если бы вы сразу написали, что для произвольной последовательности существует более выигрышная стратегия, чем каждый раз называть статистически преобладающий символ — тогда моего вопроса и не возникло бы.

Вашу статью тоже не осилил, извините. Она написана в классическом математическом стиле, отсеивающем 99.99% читателей. А в качестве доказательство практикой — предсказание биржевых котировок вполне подходит, и было бы очень любопытно на это посмотреть. И остаток на счёте в 100 млн. рублей у обычного преподавателя служил бы намного большим стимулов для вникания в суть вашей идеи.

И к слову, случайность — это математическая абстракция в теорвере, её нет в реальном мире. Легко можно сгенерировать непериодическую последовательность, которую вы от случайной методами теорвера отличить не сможете. А я — смогу предсказывать каждый символ со 100% вероятностью, потому что знаю алгоритм.

Да, "чаще" в статье определено именно в терминах результатов случайного эксперимента, то есть чтобы сделать предсказание следующего символа, действительно нужно будет сколько то раз подбросить монетку, кубик или сделать что-то подобное. Насчет языка - не переживайте, бывает оправданным написать статью для 0,01 процента читателей - и то поверьте, это оптимистичный прогноз.

Я ни в коем случае не хочу нивелировать ваш труд поскольку и сам прекрасно знаю, каких усилий это всё стоит. Однако, какой бы сложной и логически обоснованной не была мат. модель — без предсказательной способности она не имеет смысла. К тому же, теорвер базируется на некоторых допущениях, которые за неимением строгой доказательной базы просто постулируются. Например — теорема об обезьянах с точки зрения ЦОС не является верной.

Ни в коем случае не думал подозревать Вас в чем-то плохом. Да, у концепции вероятности есть много проблем, возможно, Вам будет интересна другая моя статья: https://habr.com/ru/post/493800/

Да — та статья намного более дружелюбнее, оценил.

Конкретные результаты требуют определенной подготовки: я вот тоже хотел бы понимать статьи о квантовой механике, но не разбираюсь в ней совсем.

Sign up to leave a comment.

Articles