Comments / Profile of Alexey_mosc / Habr

How to become an author

Алексей @Alexey_mosc

Статистик / DS

ProfileArticles15PostsNewsComments387

Зарабатывающая идея реального форекс-робота

Alexey_mosc Sep 9 2015 at 10:59

Случайность форекса она только на малых таймфреймах

Вот как раз на малых ТФ случайности меньше всего. Можно получить вероятность определенного исхода больше 60% при равных размахах колебания цены в обе стороны. Другое дело, что спред не позволяет извлечь из этого прибыли.

Зарабатывающая идея реального форекс-робота

Alexey_mosc Sep 9 2015 at 10:05

Доказательство несимметричности сумм прибыльных и убыточных сделок.

Вопрос автору — это слив информации из какого-то ДЦ? То есть сделки клиентов просто разложены по интервалам гистограммы?

Зарабатывающая идея реального форекс-робота

Alexey_mosc Sep 9 2015 at 09:44

А зачем философствовать? :)

Я сам извлекаю из котировок форекса стат.значимые зависимости. Для меня этот процесс перестал представляться случайным (более точно, мартингалом) уже несколько лет. Торгую я тоже в плюс, хотя прирост пока не превышает банковский вклад.

PS: я деньги зарабатываю обычной работой, но временные ряды форекса изучил во многих аспектах просто ради искусства (и небольшой прибыли).

Зарабатывающая идея реального форекс-робота

Alexey_mosc Sep 9 2015 at 08:58

Нельзя угадать результат случайного процесса.

Пока что дальше не прочитал, но уже вижу ваши заблуждения. Форекс — не случайный процесс.

Возможности Matlab для разработки и тестирования механистических торговых систем

Alexey_mosc Aug 25 2015 at 16:39

Как это выглядит для стратегии Nova, смотрите ниже.

Фактор восстановления плохой, меньше 1.

Методы отбора фич

Alexey_mosc Aug 18 2015 at 16:57

Я статью не могу порекомендовать.

Пример приведу, который мне близко знаком.

mRmR относится к классу фитнес функций, где оценка проводится для взаимодействий сразу всех предикторов, выбранных алгоритмом отобора фичей. Я пробовал применять информационную метрику (не mRmR, а более точный самописный метод) с использованием генетического алгоритма и имитации отжига. Переменные (предикторы и зависимая) должны быть дискретны, а если некоторые из них непрерывны, нужно сделать процесс дискретизации. Далее алгоритм отбора создает множество векторов предикторов, размерность которых меньше (или равна) общему количеству предикторов. Но чтобы информационные метрики работали на благо хозяйства, нужно еще их корректировать. Это отдельная большая тема.

Можно таким же образом использовать mRmR, например, в паре с алгоритмом включения или исключения предикторов.

Сама суть — мы меряем не какие-то линейные зависимости, которые могут лишь частично описать все многообразие зависимостей в задаче, а взаимную информацию, которая способна померять зависимость произвольной формы, хоть шестилистный клевер в 10 мерном пространстве.

Но я вообще против применения mRmR, так как он методологически не совсем верен. Когда я первый раз про него прочитал и посмотрел формулу, то сразу положил на него.

В чем его неверность:

Например, средняя взаимная информация для каждой пары предиктор-выход будет почти наверное посчитана неверно в том смысле, что информация, передаваемая набором предикторов может быть либо больше, либо меньше суммы взаимных информаций, передаваемых каждым предиктором.

А еще более подробно: если предикторы взаимосвязаны (взаимная информация между ними не нулевая), то их сумма взаимной информации будет больше (избыточнее), чем взаимная информация их взаимодействий. А если переменные по отдельности не влияют на зависимую переменную, но их взаимодействия влияют, то взаимная информация, передаваемая их взаимодействием, будет больше, чем их атомарные взаимные информации.

Методы отбора фич

Alexey_mosc Aug 18 2015 at 14:23

Видимо из-за неточности в обзоре mRmR выдан за фильтрующий метод отбора, тогда как он суть метод расчета фитнесс функции.

mRmR можно в качестве фитнесс функции подставить в любой алгоритм отбора информативных признаков.

Методы отбора фич

Alexey_mosc Aug 18 2015 at 12:01

Подскажите, какая целевая функция минимизировалась в обоих случаях?

Методы отбора фич

Alexey_mosc Aug 17 2015 at 20:16

Спасибо.

Методы отбора фич

Alexey_mosc Aug 17 2015 at 15:24

Обзор неплох, но слегка поверхностен. Мне было интересно почить про методы включения и ислючения, но не хватает обзора их недостатков.

Для взаимной информации, названной у вас information gain, как меры связи между предиктором и зависимой переменной (кстати, не упомянули, что ее можно посчитать и между набором предикторов и зависимой переменной), характерна одна большая проблема, которая, кстати, решается (об этом также не сказано): предиктор может обладать настолько большой энтропией, что будет прекрасно якобы детерминировать зависимую переменную на обучающей выборке, однако вся кажущаяся детерминированность пропадет при проверке на независимой выборке. Пример: есть 100 наблюдений, предиктор с 90 уровнями встречающимися в тесте.

Для метода mRmR характерна одна тоже большая проблема (расчет получается очень не точный): брать сумму значений взаимной информации для каждой пары предиктор-зависимая переменная корректно лишь в том случае, если предикторы независимы между собой. Иначе можно получить огромную избыточную взаимную информацию. Также не корректно усреднять взаимную информацию между предикторами, когда есть корректный метод, называемый multiinformation.

Вообще все перечисленные методы субоптимальны и можно придумать разновидность wrapper-метода, который победит все перечисленные недостатки, кроме, пожалуй, стоимости вычислений.

Kaggle. Предсказание продаж, в зависимости от погодных условий

Alexey_mosc Aug 17 2015 at 12:13

научиться чему-то новому и правильному

И я, кстати, не говорю, что вы делаете неправильно. Просто каждому методу свое назначение. Если задача содержит только линейные зависимости, простые коэффициенты лин.функции могут быть полезны. Однако, там все равно остается проблема анализа каждого признака в отдельности. Но если есть уверенность, что признаки информативны только в отдельности, то метод идеально подходит. Но в реальном мире это встречается редко.

Kaggle. Предсказание продаж, в зависимости от погодных условий

Alexey_mosc Aug 17 2015 at 12:02

Ок, про взаимную информацию легко найти материалы, вики та же. А про скорректированную взаимную информацию посоветую эту публикацию: Analytical estimates of limited sampling biases in different information measures by S. Panzeri et al.

Взаимная информация как мера связанности, будучи посчитанной без коррекции на ограниченную длину выборки, это путь в ошибки.

Фитнесс функции я пишу сам, тут уж только опыт поможет.

Базовые функции есть в пакетах для R, например. infotheo, например.

Kaggle. Предсказание продаж, в зависимости от погодных условий

Alexey_mosc Aug 14 2015 at 13:24

Про отбор информативных признаков, вы перечислили: веса линейной функции и важность, сгенерированная случайным лесом. Упомянули «Третий метод — метод грубой силы, выкидывать признаки по одному и смотреть, как это повлияет на точность предсказания. Самый надёжный, но, самый муторный.»

Недостатком всех трех перечисленных подходов является их суб-оптимальность. И причина проста: делается анализ важности одного из признаков, когда в реальности мы можем легко получить ситуацию, когда, например, 2 признака будут очень слабо влиять на зависимую переменную, а в комбинации давать скачкообразный рост важности. Ситуация становится еще интереснее, если попробовать представить, сколько всего взаимодействий между всеми признаками и всеми их подгруппами могут давать разное значение важности.

При этом еще отмечу, что важность признаков, сгенерированная, например, случайным лесом не трактуема в том смысле, что не ясно, температура, например, повышаясь увеливает продажи или понижаясь. Но это вроде и не требуется здесь.

Я отбираю признаки по информационному критерию: скорректированная взаимная информация между подпространством признаков и зависимой переменной. Почитайте, может, пригодится. Этот метод, в частности, анализирует взаимодействия в группе предикторов, но может и отдельные переменные посмотреть в процессе обучения.

Предсказание курса акций с использованием больших данных и машинного обучения

Alexey_mosc Jun 9 2015 at 12:24

2 questor. С вашим возмущением могу горячо согласиться.
Однако котировки можно предсказывать и зарабатывать на этом более или менее регулярно. Но не так, как описано в статье. Любой метод «в лоб» даст ноль или минус в практическом смысле.
Нобелевские лауреаты лукавят.

rusleaks.com — личные данные россиян в интернете

Alexey_mosc Oct 1 2011 at 14:03

Сайт вообще перестал открываться.

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Alexey_mosc Sep 2 2011 at 20:10

Приношу извинения за сухое изложение в статье. Добавил кое-какие объяснения и рассуждения от себя на тему теории информации. Эти данные, однако, охватывают самые основы. Спасибо за интерес к статье!

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Alexey_mosc Sep 2 2011 at 06:27

Спасибо, почитал. Понятно, первое применение теории случайного блуждания к финансовым рынкам. И это имело очень долгоиграющий эффект на целое поколение трейдеров. Но, сейчас уже более очевидно то, что случайное блуждание не является оптимальным теоретическим подходам к моделированию поведения цен.

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Alexey_mosc Sep 2 2011 at 06:25

Понял Вас. Попробую связку МТ и Альпари. Спасибо.

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Alexey_mosc Sep 1 2011 at 08:15

Из русских индексов как раз ММВБ и возьму для анализа.

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Alexey_mosc Sep 1 2011 at 07:10

Я подумаю над этим. Не слышал про такую интерпретацию. Как может быть направильно поставлен вопрос в такой задаче? Я сравнивал две назависимые выборки, функция плотности распределения вероятности которых априорна не известна. Можно еще сравнить различие средних значений по выборкам, такой тест тоже релевантен в контексте задачи. Для этого используется парный t-тест.

1 2 ...

19