https://www.mql5.com/ru/signals/87189 вот мне нравится этот трейдер. я вижу, что он зарабатывает стабильно. и таких примеров десяток-другой я смогу найти.
Соглашусь. И лучше начать с самого легкого метода. Например, сделать линейную аппроксимацию процесса. При кажущейся примитивности, такие модели показывают хорошую устойчивость с точки зрения воспроизводимости результата на новых данных, ибо они underfit (недоученные). А глубокие сети это апофеоз технологий — несколько видов регуляризвации, самописные функции потери, генерация входных признаков, стохастические методы сходимости… Короче, весь этот паровоз должен быть оправдан.
Слушать интересно. Детали тоже полезные, особенно, если не ас в глубинном обучении. Но сам посыл он не нов. Об этом уже говорилось и подмечалось. Теория и первые разработки уже давно есть, а на рынок технология вышла недавно из-за роста мощностей.
Я использую отжиг для обора информативных переменных. Размерность например 10 из 100. Но не могу сказать, что на больших задачах получаю глобальный максимум. Скорее, приближение.
Даже были неоднократные примеры, когда жадный поиск перещеголял стохастический. А времени в 100 раз меньше тратил.
Да, согласен со всем сказанным. Для выборки стремящейся к бесконечности биномиальное все равно будет довольно точно сходится к нормальности.
Если ограничена выборка — в нашем случае стоимость каждого наблюдения была значительной и объяснить менеджементу почему 300 будет лучше чем 150 надо было очень сОлидно — возникают проблемы.
из вики:
рекомендуется применять при n > 100 и npq > 20.
если у нас 1000 наблюдений (выборка по-любому будет ограничена сверху), p=0.02, то npq = 19.6, что уже на грани. Ну, вы поняли.
Тут уже более тонкий вопрос конвенций, которые используются группой специалистов. Если мы видим потенциальный источник отклонения выборочных средних от нормального распределения, мы делаем неск.тестов, в том числе непараметрических.
Если мы говорим про непрерывную случ.величину, и мы наблюдаем, что она ненормальна, то не стоит также ожидать, что на конечных выборках распределение статистики станет нормальным. Точно также, практика наложит жесткие ограничения на применимость параметрических методов.
Еще один вопрос, который может быть интересным.
Выборки часто сильно ограничены. Например, у вас сделки длятся 6 часов. Для тестирования на отложенной выборке заложено 3 года. Максимум будет 3168 сделок. Допустим, Вы наблюдаете, что доля прибыльных сделок на реальной торговле 0.52, а в среднем при моделировании случайной торговли получается 0.49 (не забываем про влияние спреда). Значимо ли отличаются частоты? Тут сходимость к нормальности будет хорошая. Но если посчитать мощность теста на разницу пропорций:
library(pwr)
pwr.2p.test(h = 0.03, n = 3168, sig.level = 0.01, power = NULL,
alternative = "greater")
Я проводил эксперимент на независимых наблюдениях, не на рынке. Моделировалось биномиальное распределение с плавающими p и n(размер выборки) для случайно сгенерированных чисел. Требовалось оценить численно какую мощность будет иметь тест на реальных данных.
Даже для многотысячных выборок распределение отличалось от нормального при p в районе 0.01-0.03.
"
Здесь sample size of 50 до 2000; p от 0.02 до 0.98. Сверху и снизу области, где распределение не нормально.
Это может быть важно. Если брак на производстве 0.1 процента, то значимо задетектировать изменение p (на 0.1 процента) с внедрением какого-то процесса потребует отказа от предположения о нормальности. Мои заказчики были в этом плане требовательны.
Согласен, это довольно особый пример. Но такая же штука может случиться и например при подсчете частоты кликов по баннерам на число посетителей сайта. То есть, это явление встречается в жизни.
Да, я просто подтруниваю. Но цель одна — улучшение качества описывающих рынок моделей.
Против стремления любого биномиального распределения к нормальному с ростом N Вы уже не возражаете?
Вы как-то слишком поспешно делаете выводы… Я сказал, что если p близко к 0.5, то сходится — это справедливо для направлений приращений цен (примерно 0.5, что пойдет в одну сторону).
В общем говоря, я не только сомневаюсь. Я это знаю доподлинно. Для крайних значений p точно не сойдется (хвост будет выпирать). Все что я пишу я сам проверял и делал это in a hard way. А вот то, что вы это не знаете, это плохо.
под Гауссовой моделью я подразумеваю наихудший вариант: если стратегия работает хуже чем случайная на Гауссовом рынке, то стратегия ли это вообще?
С этим пожалуй я соглашусь. Консервативная оценка. Но видите-ли, вам всегда придется держать в уме информацию о том, что модель не налазит на процесс и ее грубо так сказать натянули. А я лично люблю, когда сделанная работа надежна и можно не переосмысливать.
Если рассматриваете распределение вероятности для направления движения (вверх / вниз), то да, биномиальное распределение будет близко к нормальному.
Я же говорю про распределение price returns. Оно ненормально и причем совсем не нормально. Поэтому — несмотря на то, что нормальное распределение обладает самой высокой энтропией для непрерывной величины — вы будете сталкиваться с ситуациями, когда предсказанная вероятность вылета значения величины за пределы 2(3 и т.д.) сигм будет в реальности заниженной оценкой; вылеты будут гораздо чаще в силу длинных хвостов распределения.
На этот барьер натываются многие «эконометрически заточенные» хэдж фонды и их аналитики. Оценивают волатильность через нормальное распределение, а на практике она вылетает далеко за предсказания и чаще, чем надо, — потому что на рынке акторы действуют не случайно (как молекулы) и могут формировать острые тренды через поведение толпы. Даже физически рыночный процесс не может быть нормальным.
Поэтому я повторяю всегда «Зачем наступать на грабли эконометрики 20 века?».
Как мы уже обсуждали, применение выводов из предположения о нормальности ведет полученные цифры неверным путем. Наверное, иногда разница с действительными значениями может быть громадной.
Возьмем чисто для примера биномиальное распределение. Статистика его будет стремится к нормальности не всегда при увеличении числа опытов. Зачастую p (q) сильно далеко от 0.5. И тогда нормальности не наблюдается, а значит нельзя считать основанную на предположении статистику (t-test, например, z-test).
Коллега, это очень интересная статья. Мне понравился аналитический подход и мысль в верном направлении. Действительно, можно смоделировать распределение ФВ для случайной торговли и сравнить правый его хвост с реальным значением на реале (обязательно на реальном форвард-тесте).
Но, я вас немного остужу.
Предположим, что рынок описывается нормальным распределением изменения значений котировок за период времени
Приращения цен на рынке не нормальны. https://www.mql5.com/ru/forum/72329/page4
Плотность распределения больше похожа на лапласовскую. Хвосты толстые. Поэтому выкладки неприменимы к рынку. Я думаю, вы сможете в Питоне взять реальные приращения и проверить их на нормальность неск.стат.тестами нулевой гипозы. И подобрать через макс.правдоподобие параметры распределения Лапласса так, что будет очень похоже. В общем, сами проверите. А теперь про идею. Вместо аналитического вывода в условиях отсутствия точного знания о виде распределения, можно делать симуляцию Монте-Карло, где по сути будет отбираться случайным образом приращения цены (в случае случайного сферического трейдера) на заданном горизонте и в нужном числе. Эти параметры можно взять из сравниваемой торговли. И смоделировать верхний квантиль распределения. Успехов!
Это вопрос философский. Кому-то нравится. Повторюсь, что создать систему дающую 20-30% в год вполне можно доступными любому обывателю инструментами. Мой пример — это была одна из попыток, определенный опыт извлечен.
Очень зря вы так рано сдались, милейший. На диване рассуждаете или есть какие-то техн.наработки по этому вопросу?
Вот вам картинка еще одна: https://c.mql5.com/1/37/teaser2.JPG
Так показаны минимальные пороги точности бинарного предсказания для получения нулевого МО. И реальные данные моего моделирования. Я УМЕЮ предсказывать направление движения цены на определенном горизонте прогнозирования до точностей 55%. Хватит ли это для уверенного заработака? Вряд ли… Но Делать это можно без всякой нечисти.
Да какая разница. К пенсии что-то заработать и будет хорошо. Все равно я сейчас разговариваю с человеком, который видимо ничего в этом не понимает и ему можно навешать что угодно.
Я скоро может сам свой топик похожий сделаю. Где-то через полгодика. У меня эксперимент идет уже больше полугода с перерывами на отдых. Не могу сказать, что там что-то просто. Там все сложно. И самое главное — это не кого-то убедить или удивить (это бесполезно и бессмысленно. есть примеры, когда за месяцы делаются сотни процентов), а самого себя не обмануть красивой картинкой, например, такой: https://c.mql5.com/3/101/assembly_1__2.JPG. Ну и просто: «удачи, хорошего настроения, держитесь там!».
Я имел в виду, один пример применения. Допустим, я беру данные посещений страниц сайта, несколько переменных, характеризующих каждую страницу. Страницы ведут на продукты, реализуемые на сайте. Можно, например, обучить модель предсказывать продажи продуктов в зависимости от посещений страниц этих продуктов и представить важность предикторов? Просто мысли…
Я использую отжиг для обора информативных переменных. Размерность например 10 из 100. Но не могу сказать, что на больших задачах получаю глобальный максимум. Скорее, приближение.
Даже были неоднократные примеры, когда жадный поиск перещеголял стохастический. А времени в 100 раз меньше тратил.
Я намекаю, что для реальных данных детекция значимых отклонений будет не простой ))
Если ограничена выборка — в нашем случае стоимость каждого наблюдения была значительной и объяснить менеджементу почему 300 будет лучше чем 150 надо было очень сОлидно — возникают проблемы.
из вики:
если у нас 1000 наблюдений (выборка по-любому будет ограничена сверху), p=0.02, то npq = 19.6, что уже на грани. Ну, вы поняли.
Тут уже более тонкий вопрос конвенций, которые используются группой специалистов. Если мы видим потенциальный источник отклонения выборочных средних от нормального распределения, мы делаем неск.тестов, в том числе непараметрических.
Если мы говорим про непрерывную случ.величину, и мы наблюдаем, что она ненормальна, то не стоит также ожидать, что на конечных выборках распределение статистики станет нормальным. Точно также, практика наложит жесткие ограничения на применимость параметрических методов.
Еще один вопрос, который может быть интересным.
Выборки часто сильно ограничены. Например, у вас сделки длятся 6 часов. Для тестирования на отложенной выборке заложено 3 года. Максимум будет 3168 сделок. Допустим, Вы наблюдаете, что доля прибыльных сделок на реальной торговле 0.52, а в среднем при моделировании случайной торговли получается 0.49 (не забываем про влияние спреда). Значимо ли отличаются частоты? Тут сходимость к нормальности будет хорошая. Но если посчитать мощность теста на разницу пропорций:
получим:
power = 0.1287409
То есть, тоже не АЙС.
Даже для многотысячных выборок распределение отличалось от нормального при p в районе 0.01-0.03.
Здесь sample size of 50 до 2000; p от 0.02 до 0.98. Сверху и снизу области, где распределение не нормально.
Это может быть важно. Если брак на производстве 0.1 процента, то значимо задетектировать изменение p (на 0.1 процента) с внедрением какого-то процесса потребует отказа от предположения о нормальности. Мои заказчики были в этом плане требовательны.
Согласен, это довольно особый пример. Но такая же штука может случиться и например при подсчете частоты кликов по баннерам на число посетителей сайта. То есть, это явление встречается в жизни.
Да, я просто подтруниваю. Но цель одна — улучшение качества описывающих рынок моделей.
Вы как-то слишком поспешно делаете выводы… Я сказал, что если p близко к 0.5, то сходится — это справедливо для направлений приращений цен (примерно 0.5, что пойдет в одну сторону).
В общем говоря, я не только сомневаюсь. Я это знаю доподлинно. Для крайних значений p точно не сойдется (хвост будет выпирать). Все что я пишу я сам проверял и делал это in a hard way. А вот то, что вы это не знаете, это плохо.
С этим пожалуй я соглашусь. Консервативная оценка. Но видите-ли, вам всегда придется держать в уме информацию о том, что модель не налазит на процесс и ее грубо так сказать натянули. А я лично люблю, когда сделанная работа надежна и можно не переосмысливать.
Я же говорю про распределение price returns. Оно ненормально и причем совсем не нормально. Поэтому — несмотря на то, что нормальное распределение обладает самой высокой энтропией для непрерывной величины — вы будете сталкиваться с ситуациями, когда предсказанная вероятность вылета значения величины за пределы 2(3 и т.д.) сигм будет в реальности заниженной оценкой; вылеты будут гораздо чаще в силу длинных хвостов распределения.
На этот барьер натываются многие «эконометрически заточенные» хэдж фонды и их аналитики. Оценивают волатильность через нормальное распределение, а на практике она вылетает далеко за предсказания и чаще, чем надо, — потому что на рынке акторы действуют не случайно (как молекулы) и могут формировать острые тренды через поведение толпы. Даже физически рыночный процесс не может быть нормальным.
Поэтому я повторяю всегда «Зачем наступать на грабли эконометрики 20 века?».
Возьмем чисто для примера биномиальное распределение. Статистика его будет стремится к нормальности не всегда при увеличении числа опытов. Зачастую p (q) сильно далеко от 0.5. И тогда нормальности не наблюдается, а значит нельзя считать основанную на предположении статистику (t-test, например, z-test).
Именно поэтому встает вопрос применимости метода.
Но, я вас немного остужу.
Приращения цен на рынке не нормальны. https://www.mql5.com/ru/forum/72329/page4
Плотность распределения больше похожа на лапласовскую. Хвосты толстые. Поэтому выкладки неприменимы к рынку. Я думаю, вы сможете в Питоне взять реальные приращения и проверить их на нормальность неск.стат.тестами нулевой гипозы. И подобрать через макс.правдоподобие параметры распределения Лапласса так, что будет очень похоже. В общем, сами проверите. А теперь про идею. Вместо аналитического вывода в условиях отсутствия точного знания о виде распределения, можно делать симуляцию Монте-Карло, где по сути будет отбираться случайным образом приращения цены (в случае случайного сферического трейдера) на заданном горизонте и в нужном числе. Эти параметры можно взять из сравниваемой торговли. И смоделировать верхний квантиль распределения. Успехов!
Вот вам картинка еще одна: https://c.mql5.com/1/37/teaser2.JPG
Так показаны минимальные пороги точности бинарного предсказания для получения нулевого МО. И реальные данные моего моделирования. Я УМЕЮ предсказывать направление движения цены на определенном горизонте прогнозирования до точностей 55%. Хватит ли это для уверенного заработака? Вряд ли… Но Делать это можно без всякой нечисти.
Так что надо встать с диванчика.
Я скоро может сам свой топик похожий сделаю. Где-то через полгодика. У меня эксперимент идет уже больше полугода с перерывами на отдых. Не могу сказать, что там что-то просто. Там все сложно. И самое главное — это не кого-то убедить или удивить (это бесполезно и бессмысленно. есть примеры, когда за месяцы делаются сотни процентов), а самого себя не обмануть красивой картинкой, например, такой: https://c.mql5.com/3/101/assembly_1__2.JPG. Ну и просто: «удачи, хорошего настроения, держитесь там!».