Pull to refresh
13
0
Алексей @Alexey_mosc

Статистик / DS

Send message
Как это выглядит для стратегии Nova, смотрите ниже.


Фактор восстановления плохой, меньше 1.
Я статью не могу порекомендовать.

Пример приведу, который мне близко знаком.

mRmR относится к классу фитнес функций, где оценка проводится для взаимодействий сразу всех предикторов, выбранных алгоритмом отобора фичей. Я пробовал применять информационную метрику (не mRmR, а более точный самописный метод) с использованием генетического алгоритма и имитации отжига. Переменные (предикторы и зависимая) должны быть дискретны, а если некоторые из них непрерывны, нужно сделать процесс дискретизации. Далее алгоритм отбора создает множество векторов предикторов, размерность которых меньше (или равна) общему количеству предикторов. Но чтобы информационные метрики работали на благо хозяйства, нужно еще их корректировать. Это отдельная большая тема.

Можно таким же образом использовать mRmR, например, в паре с алгоритмом включения или исключения предикторов.

Сама суть — мы меряем не какие-то линейные зависимости, которые могут лишь частично описать все многообразие зависимостей в задаче, а взаимную информацию, которая способна померять зависимость произвольной формы, хоть шестилистный клевер в 10 мерном пространстве.

Но я вообще против применения mRmR, так как он методологически не совсем верен. Когда я первый раз про него прочитал и посмотрел формулу, то сразу положил на него.

В чем его неверность:

Например, средняя взаимная информация для каждой пары предиктор-выход будет почти наверное посчитана неверно в том смысле, что информация, передаваемая набором предикторов может быть либо больше, либо меньше суммы взаимных информаций, передаваемых каждым предиктором.

А еще более подробно: если предикторы взаимосвязаны (взаимная информация между ними не нулевая), то их сумма взаимной информации будет больше (избыточнее), чем взаимная информация их взаимодействий. А если переменные по отдельности не влияют на зависимую переменную, но их взаимодействия влияют, то взаимная информация, передаваемая их взаимодействием, будет больше, чем их атомарные взаимные информации.
Видимо из-за неточности в обзоре mRmR выдан за фильтрующий метод отбора, тогда как он суть метод расчета фитнесс функции.

mRmR можно в качестве фитнесс функции подставить в любой алгоритм отбора информативных признаков.
Подскажите, какая целевая функция минимизировалась в обоих случаях?
Обзор неплох, но слегка поверхностен. Мне было интересно почить про методы включения и ислючения, но не хватает обзора их недостатков.

Для взаимной информации, названной у вас information gain, как меры связи между предиктором и зависимой переменной (кстати, не упомянули, что ее можно посчитать и между набором предикторов и зависимой переменной), характерна одна большая проблема, которая, кстати, решается (об этом также не сказано): предиктор может обладать настолько большой энтропией, что будет прекрасно якобы детерминировать зависимую переменную на обучающей выборке, однако вся кажущаяся детерминированность пропадет при проверке на независимой выборке. Пример: есть 100 наблюдений, предиктор с 90 уровнями встречающимися в тесте.

Для метода mRmR характерна одна тоже большая проблема (расчет получается очень не точный): брать сумму значений взаимной информации для каждой пары предиктор-зависимая переменная корректно лишь в том случае, если предикторы независимы между собой. Иначе можно получить огромную избыточную взаимную информацию. Также не корректно усреднять взаимную информацию между предикторами, когда есть корректный метод, называемый multiinformation.

Вообще все перечисленные методы субоптимальны и можно придумать разновидность wrapper-метода, который победит все перечисленные недостатки, кроме, пожалуй, стоимости вычислений.
научиться чему-то новому и правильному


И я, кстати, не говорю, что вы делаете неправильно. Просто каждому методу свое назначение. Если задача содержит только линейные зависимости, простые коэффициенты лин.функции могут быть полезны. Однако, там все равно остается проблема анализа каждого признака в отдельности. Но если есть уверенность, что признаки информативны только в отдельности, то метод идеально подходит. Но в реальном мире это встречается редко.
Ок, про взаимную информацию легко найти материалы, вики та же. А про скорректированную взаимную информацию посоветую эту публикацию: Analytical estimates of limited sampling biases in different information measures by S. Panzeri et al.

Взаимная информация как мера связанности, будучи посчитанной без коррекции на ограниченную длину выборки, это путь в ошибки.

Фитнесс функции я пишу сам, тут уж только опыт поможет.

Базовые функции есть в пакетах для R, например. infotheo, например.
Про отбор информативных признаков, вы перечислили: веса линейной функции и важность, сгенерированная случайным лесом. Упомянули «Третий метод — метод грубой силы, выкидывать признаки по одному и смотреть, как это повлияет на точность предсказания. Самый надёжный, но, самый муторный.»

Недостатком всех трех перечисленных подходов является их суб-оптимальность. И причина проста: делается анализ важности одного из признаков, когда в реальности мы можем легко получить ситуацию, когда, например, 2 признака будут очень слабо влиять на зависимую переменную, а в комбинации давать скачкообразный рост важности. Ситуация становится еще интереснее, если попробовать представить, сколько всего взаимодействий между всеми признаками и всеми их подгруппами могут давать разное значение важности.

При этом еще отмечу, что важность признаков, сгенерированная, например, случайным лесом не трактуема в том смысле, что не ясно, температура, например, повышаясь увеливает продажи или понижаясь. Но это вроде и не требуется здесь.

Я отбираю признаки по информационному критерию: скорректированная взаимная информация между подпространством признаков и зависимой переменной. Почитайте, может, пригодится. Этот метод, в частности, анализирует взаимодействия в группе предикторов, но может и отдельные переменные посмотреть в процессе обучения.
2 questor. С вашим возмущением могу горячо согласиться.
Однако котировки можно предсказывать и зарабатывать на этом более или менее регулярно. Но не так, как описано в статье. Любой метод «в лоб» даст ноль или минус в практическом смысле.
Нобелевские лауреаты лукавят.
Сайт вообще перестал открываться.
Приношу извинения за сухое изложение в статье. Добавил кое-какие объяснения и рассуждения от себя на тему теории информации. Эти данные, однако, охватывают самые основы. Спасибо за интерес к статье!
Спасибо, почитал. Понятно, первое применение теории случайного блуждания к финансовым рынкам. И это имело очень долгоиграющий эффект на целое поколение трейдеров. Но, сейчас уже более очевидно то, что случайное блуждание не является оптимальным теоретическим подходам к моделированию поведения цен.
Я подумаю над этим. Не слышал про такую интерпретацию. Как может быть направильно поставлен вопрос в такой задаче? Я сравнивал две назависимые выборки, функция плотности распределения вероятности которых априорна не известна. Можно еще сравнить различие средних значений по выборкам, такой тест тоже релевантен в контексте задачи. Для этого используется парный t-тест.
Глазомер — незаменимый инструмент. Пока не делал замеров стационарности, потому что не вижу в этом необходимости. Цель то была в том, чтобы сформировать случайный ряд данных, а насколько стационарным он получился, неважно.

Про сложность прогнозирования финансовых временных рядов полностью согласен. Нужно искать и искать.
Спасибо! Интересное замечание. Попробую. А колонки сделал такими, потому что выборка невелика, 250 замеров взаимной информации. Решил не терзать данные, но конечно попробую и меньшие промежутки.
Я думаю, что этот всплеск на лаге 5 просто не будет играть существенной роли при прогнозировании, так как он несет сотые доли бита информации. Но он вряд ли случаен, и совпадает с естественным недельным циклом. Сравнить с другими основными индексами, например, по азиатскому, европейскому и русскому рынкам, было бы интересно — согласен.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity