Sergey_Kovalenko Dec 22 2020 at 07:41

Применимы ли индуктивные рассуждения к предсказанию символов в неслучайных последовательностях?

51 min

4.8K

Algorithms * Entertaining tasksMathematics * Machine learning *

+46

Comments 28

ildarz Dec 22 2020 at 08:23

Если выяснится, что ответ на этот вопрос положительный, то мы получим крайне интересный прецедент, когда по сути статистические методы оказываются применимы к наблюдениям, природа которых не является вероятностной. Феномен подобного масштаба может даже стать поводом пересмотреть рамки современной математической статистики и границы ее приложения на практике.

Хм, но ведь методу Монте-Карло уже скоро сотня лет как. И одно из его применений — как раз-таки аппроксимация статистическими методами вещей, природа которых не является вероятностной. Поэтому не очень понимаю, о каком прецеденте вы тут говорите.

Sergey_Kovalenko Dec 22 2020 at 08:31

Хм, но ведь методу Монте-Карло уже скоро сотня лет как. И одно из его применений — как раз-таки аппроксимация статистическими методами вещей, природа которых не является вероятностной

То есть, интегрирование. Но ведь в методе Монте-Карло последовательность точек бросается в пространство аргументов случайно…

ildarz Dec 22 2020 at 09:32

Ну, положим, не только интегрирование. В целом то, что вы делаете в статье — пытаетесь найти наилучшую экстраполирующую функцию для данных, природа которых априори неизвестна. Но ведь по сути дела это крайне типичная задача, которую приходится решать при изучении самых разных природных явлений.

Другое дело, что вы рассматриваете чисто статистический подход, не зависящий от природы явления, тогда как обычно пытаются именно понять природу и найти подходящую аналитическую функцию для описания. Но когда это по каким-то причинам невозможно или слишком трудозатратно, статистические методы для предсказаний тоже вполне себе используются.

Sergey_Kovalenko Dec 22 2020 at 09:57

Безусловно так, но ведь применение статистических методов вне контекста случайности требует какого-то обоснования. Не всегда же они применимы

EndUser Dec 22 2020 at 09:06

Применимы www.explainxkcd.com/wiki/index.php/1068:_Swiftkey

dMac Dec 22 2020 at 12:56

TL;DR;
Грааль не существует.
Подход интересный, но эффективность вероятностного прогнозирования без дополнительных данных о природе последовательности и ее статистических параметрах повысить нельзя.

Sergey_Kovalenko Dec 22 2020 at 13:14

Если последовательность случайна, то я, конечно же, с вами соглашусь. Но, похоже, можно предложить такое обобщение статистики, которое будет пригодным и для неслучайных последовательностей тоже. Не уверен насчет прогнозирования, но насчет задачи адаптации какой-то результат у меня получился.

qw1 Dec 23 2020 at 13:49

А я всё ждал, когда повествование свернёт к созданию моделей для архиваторов.
У многих современных (если это можно сказать про 90-е годы) алгоритмов архивации (семейства PPM), модель — распределение вероятности следующего байта и дальше они этот байт кодируют хаффманом или арифметическим кодером по этому распределению.

Sergey_Kovalenko Dec 23 2020 at 16:35

Да, было бы интересно протестировать идеи статьи на архиваторах. Там правда все чуть-чуть сложнее выглядит. Дисбаланс частот употребления слов тексте скорее всего будет, однако это не та закономерность, на которой можно срезать много информационного объема. Лично мне кажется перспективным ловить статистические зависимости между частотами употребления слов и ближайшим контекстом, но опять же, — это только в качестве маленького исследовательского проекта. Если речь идет об осмысленных текстах на естественных языках, то там скорее всего можно и напрямую грамматику учесть и глобальный контекст слов как-то вычислить.

nin-jin Apr 1 2021 at 09:05

Статью не осилил. Однако отмечу, что есть куда более простая стратегия без какого либо теорвера, которая и детерминированнные последовательности быстро раскусывает и на случайных не бьёт лицом в грязь. Можете побороться с ней тут: iq.hyoo.ru

Так выглядит статистика для равновероятного рандома:

А так для соотношения вероятностей 1:10:

А вот так на детерминированной последовательности 1-2-3-4-5-6-7-8-9-...:

А так человеческий фактор, постоянно меняющий стратегию:

Можете попытаться придумать последовательность, которая уйдёт выше 50:-)

Фактически по характеру графика можно понять степень детерминированности последовательности. Если он стремится к 0, то детерминирована. Если к 100, то идёт заглядывание в будущее. Если в промежутке между 0 и 50, то недетерминирована с соответствующим соотношением вероятностей.

Sergey_Kovalenko Apr 1 2021 at 09:42

Спасибо, я только не совсем понял, что именно показывает график. Интересно еще, как выглядит «совсем простая стратегия».

nin-jin Apr 1 2021 at 10:02

Процент неугаданных алгоритмом значений.

Там есть ссылка на гитхаб с исходниками. Если вкратце, то анализируется последовательность с конца на постепенно увеличивающуюся глубину истории, строится модель и по этой модели делается предсказание.

Sergey_Kovalenko Apr 1 2021 at 10:12

Там есть ссылка на гитхаб с исходниками.

Поискал папочку с названием «abstract», но похоже такой там нет(.

nin-jin Apr 1 2021 at 12:29

Там код на 50 строчек. Зачем ему абстракт?

Sergey_Kovalenko Apr 1 2021 at 12:34

Я ведь не программист. Одно могу сказать точно: если использованный там алгоритм не использует (псевдо)случайные шаги, то можно привести такую последовательность нажатий кнопок «правая» «левая», в которой он (алгоритм) не угадает ни одной.

nin-jin Apr 1 2021 at 13:50

Конечно, это эквивалентно заглядыванию в будущее: получаем предсказание и действуем наоборот. Думаю все показатели от 50 до 100 — это использование такой рефлексии в той или иной степени.

Sergey_Kovalenko Apr 1 2021 at 18:59

Так статья именно о том, как построить алгоритм предсказания, который на наихудшей для себя (а не просто случайно) последовательности угадает символов, не сильно меньше, чем самый надежный алгоритм в своей наихудшей последовательности, и при этом, если вдруг последовательность проявит некоторую закономерность — угадает больше.

nin-jin Apr 1 2021 at 19:17

Так ничего не мешает точно так же заглянуть в будущее вашего алгоритма и корректировать веса ему в противовес.

Sergey_Kovalenko Apr 1 2021 at 20:08

Мешает принцип, по которому мой алгоритм управляет не выбором следующего символа, а вероятностями, с которыми каждый из символов может стать следующим.

nin-jin Apr 2 2021 at 03:27

Поэтому я и говорю о весах, а не точном значении. Кстати, если добавить в мой алгоритм случайную ошибку восприятия в 1 случае из 10, то это эффективно предотвращает возможность точного предсказания его работы:

Вот так это выглядит без рандомизации:

Но, разумеется, абсолютно предсказуемая последовательность уже не опускается ниже определённого степенью рандома уровня:

Refridgerator Aug 29 2021 at 04:08

Собственно статья посвящена вот какому вопросу:
Пусть некое устройство печатает на бумажной ленте длинную последовательность из ноликов и единичек. Будем считать, что вам не известны ни принцип работы этого устройства, ни конечная длина воспроизводимой им последовательности. Представим, что от вас требуется как можно большее число раз угадать, какой символ будет напечатан следующим, и спустя некоторое время вы обнаруживаете, что среди напечатанных символов число единиц значимо больше числа нулей.

Должно ли это наблюдение заставить вас в будущем в качестве прогноза чаще называть «единицу»?

Правильный вопрос такой: Должно ли это наблюдение заставить вас в будущем в качестве прогноза ~~чаще~~ только называть «единицу»? Очевидно, если вероятность единицы больше — то и угадываться она будет чаще при такой стратегии, и большего из теорвера не выжать. А чтобы выжать больше, нужно уже спектральный анализ привлекать. Ну и мат. модель — это конечно хорошо, но где проверка на практике?

Sergey_Kovalenko Aug 29 2021 at 06:37

Статья как раз таки о том, что даже для неслучайных последовательностей стоит чаще называть единицу, если она чаще встречалась раннее. Для стратегии, когда всегда называется более частый символ, в статье указаны несколько "контрпоследовательностей", на которых эта самая стратегия терпит сокрушительное фиаско, а стратегии, называющие единицу лишь чаще, чем ноль, - по прежнему угадывают больше половины символов.

Refridgerator Aug 29 2021 at 07:58

Так это чаще математически как описывается? Чередовать 1,1,0,1,1,0,1,1...? Бросать кубик, если 1 или 2 то 1 иначе 0? Какие-то другие алгоритмы? Если бы вы сразу написали, что для произвольной последовательности существует более выигрышная стратегия, чем каждый раз называть статистически преобладающий символ — тогда моего вопроса и не возникло бы.

Вашу статью тоже не осилил, извините. Она написана в классическом математическом стиле, отсеивающем 99.99% читателей. А в качестве доказательство практикой — предсказание биржевых котировок вполне подходит, и было бы очень любопытно на это посмотреть. И остаток на счёте в 100 млн. рублей у обычного преподавателя служил бы намного большим стимулов для вникания в суть вашей идеи.

И к слову, случайность — это математическая абстракция в теорвере, её нет в реальном мире. Легко можно сгенерировать непериодическую последовательность, которую вы от случайной методами теорвера отличить не сможете. А я — смогу предсказывать каждый символ со 100% вероятностью, потому что знаю алгоритм.

Sergey_Kovalenko Aug 29 2021 at 08:18

Да, "чаще" в статье определено именно в терминах результатов случайного эксперимента, то есть чтобы сделать предсказание следующего символа, действительно нужно будет сколько то раз подбросить монетку, кубик или сделать что-то подобное. Насчет языка - не переживайте, бывает оправданным написать статью для 0,01 процента читателей - и то поверьте, это оптимистичный прогноз.

Refridgerator Aug 29 2021 at 10:10

Я ни в коем случае не хочу нивелировать ваш труд поскольку и сам прекрасно знаю, каких усилий это всё стоит. Однако, какой бы сложной и логически обоснованной не была мат. модель — без предсказательной способности она не имеет смысла. К тому же, теорвер базируется на некоторых допущениях, которые за неимением строгой доказательной базы просто постулируются. Например — теорема об обезьянах с точки зрения ЦОС не является верной.

Sergey_Kovalenko Aug 29 2021 at 10:16

Ни в коем случае не думал подозревать Вас в чем-то плохом. Да, у концепции вероятности есть много проблем, возможно, Вам будет интересна другая моя статья: https://habr.com/ru/post/493800/

Refridgerator Aug 29 2021 at 11:18

Да — та статья намного более дружелюбнее, оценил.

Sergey_Kovalenko Aug 29 2021 at 12:28

Конкретные результаты требуют определенной подготовки: я вот тоже хотел бы понимать статьи о квантовой механике, но не разбираюсь в ней совсем.