toyban, правдоподобие и вероятность очень близки по смыслу. Скорей всего у нас с вами одинаковая картинка в голове. Интереснее порассуждать насчет второй формулы.
Давайте поставим знак < вместо = между двумя выражениям во второй формуле. Таким образом формула будет удволетворять требованию, что события не являются независимыми. Однако, выводы статьи от этого не меняются. Также на это указывает тот факт что, log-likelihood для каждой из валют ведут себя схоже с тем как ведете себя суммарная log-likelihood (которая на рис.1).
Насчет последнего вашего параграфа: при тренировки модели действительно возникает максимум правдоподобия, но на рис. 1 изображен не максимум, а число (которое получается, если подставить в функцию правдоподобия значения параметров).
bellerofonte:
1) Узлы (ноды) — это котировки одной валюты, ребра — зависимости между котировками. Направление — это зависимости. Если a-> b, то изменения в a порождают изменения в b.
2) В Байесовской сети не может быть циклов. У меня не было с ними проблем.
3) Не понял вопроса. Наша модель — это просто параметрический способ описать расспределение. Мы просим ее дать нам log-likelihood и ожидаемое значение для каждой валюты на каждый день. Можно спросить ожидаемые значения для множества валют на конкретный день (можно для всех валют).
Спасибо, toyban, за коментарий. Было полезно поразмышлять над ним.
1) Вы правы. Я очень грубо описал, что такое правдоподобие. Спделал это, чтобы у тех, кто совсем не в теме появилось хоть какое-то понимнание.
Ваше определение вносит немного больше ясности, но это такое же грубое описание как и у меня. Величина правдоподобия — это не вероятность. Близко связано с вероятностью, но не оно. Если бы эта была вероятность, то логарифм по всем свободным параметрам (или точкам? каким?) должен был бы равен единице, а этого нет. Величина правдоподобия имеет смысл лишь при сравнении с другой величиной правдоподобия (например для другой модели).
Насчет эвристики: все верно. Но этот, как правило, хороший путь. Мы описываем расспределение какими-то параметрами. Иногда это не работает, иногда работает идеально, но, как правило, это дает сносный результат даже при учете того, что реально расспределение не совсем хорошо описывается нашим параметрическим приближением (толстые хвосты).
2. Не понятен коментарий. Какой «максимум правдоподобия» здесь имеется ввиду? Временную составляющую я проигнорировал для простоты. При построении Байесовской сети обычно рекомендуется игнорировать время на первом этапе потому, что даже без времени модель может дать хороший результат. Как мне кажеся, именно поэтому мы видим, что log-likelihood имеет ниспадающий тренд. Если бы было время, то, возможно, тренд бы пропал.
loverussia модель лишь описывает. Она ни чего не предсказывает. Предсказание можно сделать анализируя то, что модель показывает и сопоставляя со другими знаниями.
Спасибо, bellerofonte, за интересный коментарий.
1) Вы правы, информационные события действительно должны влиять на log-likelihood. И спайк в 2008 — это не предсказание кризиса, а реакция на него. В статье я хочу указать на период до кризиса 2006-2007. Можно сказать, что колебания log-likelihood в этот период — это тоже реакция на информационные события. Я больше хочу указать на то, что кобминации котировок в этот пероид приняли аномальные значения и позже случился кризис. Сегодня комбинации опять приняли аномальные значения. То есть такие значения, которые модель не ожидает. Само по себе это уже должно наводить на мысль. А если к этому еще добавить еще и знания того, что происходило в 2006-2007, то вывод у приблежающемся кризисе напрашивется сам собой.
Текущие спайки не объясняются обесцениваем фунта. Вклад фунта в log-likelihood почти нулевой. Фунт как раз ведет себя так как модель этого ожидает.
2) Насчет обучения модели каждый год — это хороший вопрос. На самом деле для подобного рода модели период обучения должен задавться в ручную и зависит от определенных произошедших в прошлом событий, которые влияли на конкретную валюту. Самый простой вариант — это выбрать данные за весь предыдущий период что я и зделал. Можно добавить опцию обучения раз в день, неделю, месяц и полгода. Это тема для отдельного исследования. Я выбрал простой вариант. Надо лишь учитывать этот при анализе графиков.
Насчет кросвалидации: У меня описательная модель. Она лишь описывает расспределение котировок. Нет никаких предсказаний на будущее. Все результаты показаны на прошлое. Ближайшее прошлое — это вчера.
3) Лучше не использовать модель как законченный торговый алгоритм, который можно встроить в робота. z-value только говорит, что имеется повышенная вероятность смены тренда на ближайшие недели. И, еще раз, модель сама по себе только описывает данные. Она ни чего не предсказывает.
4) Я не могу показывать вам свой инвестиционный портфель. Могу лишь сказать, что когда мне нужно было поменять валюту, я пользовался этим алгоритмом. И мне он очень помог.
Да, SatCat, валюты здесь выступают в качестве индикатора. Оказалось, что их поведение неким образом отражает кризис. Остальные финансовые инструменты тоже хорошо бы включить в модель.
Даже, если валюты жестко регулируются, все равно это делается с оглядкой на рынок. Если модель увидет связь с рынком, то она использует это знание. Если такой связи нет, то песо ни на что в модели влиять не будет. Все равно надо подумать над изменением списка валют. Спасибо, Rollant.
dzsysop, модель говорит о том, что взаимное расспределение котировок является аномальным. Конечно, хорошо иметь повторяемость, но в данном случае необязательно. Достаточно лишь того факта, что мы наблюдаем что-то чего до этого не наблюдали. Например, если завтра в Новосибирске будет наблюдаться северно сияние, то и без всякой повторяемости можно сделать вывод об аномальных атмосферных явлениях.
raamid, в данном случае байесовская сеть выступает в качестве описательной модели: просто описывает распределение в прошлом. Она ни чего не предсказывает. Только говорит, что было вчера и в прошлые дни.
Хороший аналог моего анализа — это анализ мошеннических операций в банковской сфере (fraud detection). Мошенники, как правило, каждый раз придумывают новые схемы. Поэтому сделать хорошую модель только на прошлых транзакций трудно. В этом случае используется подход, который выявляет аномальные транзакции. То есть такие транзакции параметры которых наблюдались редко. Например, если у вас по кредитке движение средств около 100к рублей в месяц в течении нескольких лет, а завтра появятся транзакции 1 млн в день, то банк это обязательно заметит и (скороей всего отреагирует временной блокировкой карты). Можно и более сложный пример придумать.
Моя модель говорит только об том, что взаимное распределение валюты аномально наисторическом промежутке в почти 15 лет.
Возможно работают определенные сдерживающие факторы, которые отодвинули острую фазу кризиса немного в будущее. Также в 2006-2007 эксперты говорили, что ипотечные бумаги сильно переоценены, но ни кто не обращал на это внимание. Одним из таких факторов сегодня, например, может быть политика количественного смягчение при которой европейский центральные банк и американский ФРС напечатали каждый по несколько триллионов долларов (громадные суммы!) начиная с кризиса 2008 и влили их в свои экнономики. Если мы сегодня видим такие же низкие значения как в разгар кризиса 2008 и не видим сам кризис, то это может говорить о том, что сам кризис будет еще серьезнее чем в 2008.
Давайте поставим знак < вместо = между двумя выражениям во второй формуле. Таким образом формула будет удволетворять требованию, что события не являются независимыми. Однако, выводы статьи от этого не меняются. Также на это указывает тот факт что, log-likelihood для каждой из валют ведут себя схоже с тем как ведете себя суммарная log-likelihood (которая на рис.1).
Насчет последнего вашего параграфа: при тренировки модели действительно возникает максимум правдоподобия, но на рис. 1 изображен не максимум, а число (которое получается, если подставить в функцию правдоподобия значения параметров).
1) Узлы (ноды) — это котировки одной валюты, ребра — зависимости между котировками. Направление — это зависимости. Если a-> b, то изменения в a порождают изменения в b.
2) В Байесовской сети не может быть циклов. У меня не было с ними проблем.
3) Не понял вопроса. Наша модель — это просто параметрический способ описать расспределение. Мы просим ее дать нам log-likelihood и ожидаемое значение для каждой валюты на каждый день. Можно спросить ожидаемые значения для множества валют на конкретный день (можно для всех валют).
1) Вы правы. Я очень грубо описал, что такое правдоподобие. Спделал это, чтобы у тех, кто совсем не в теме появилось хоть какое-то понимнание.
Ваше определение вносит немного больше ясности, но это такое же грубое описание как и у меня. Величина правдоподобия — это не вероятность. Близко связано с вероятностью, но не оно. Если бы эта была вероятность, то логарифм по всем свободным параметрам (или точкам? каким?) должен был бы равен единице, а этого нет. Величина правдоподобия имеет смысл лишь при сравнении с другой величиной правдоподобия (например для другой модели).
Насчет эвристики: все верно. Но этот, как правило, хороший путь. Мы описываем расспределение какими-то параметрами. Иногда это не работает, иногда работает идеально, но, как правило, это дает сносный результат даже при учете того, что реально расспределение не совсем хорошо описывается нашим параметрическим приближением (толстые хвосты).
2. Не понятен коментарий. Какой «максимум правдоподобия» здесь имеется ввиду? Временную составляющую я проигнорировал для простоты. При построении Байесовской сети обычно рекомендуется игнорировать время на первом этапе потому, что даже без времени модель может дать хороший результат. Как мне кажеся, именно поэтому мы видим, что log-likelihood имеет ниспадающий тренд. Если бы было время, то, возможно, тренд бы пропал.
1) Вы правы, информационные события действительно должны влиять на log-likelihood. И спайк в 2008 — это не предсказание кризиса, а реакция на него. В статье я хочу указать на период до кризиса 2006-2007. Можно сказать, что колебания log-likelihood в этот период — это тоже реакция на информационные события. Я больше хочу указать на то, что кобминации котировок в этот пероид приняли аномальные значения и позже случился кризис. Сегодня комбинации опять приняли аномальные значения. То есть такие значения, которые модель не ожидает. Само по себе это уже должно наводить на мысль. А если к этому еще добавить еще и знания того, что происходило в 2006-2007, то вывод у приблежающемся кризисе напрашивется сам собой.
Текущие спайки не объясняются обесцениваем фунта. Вклад фунта в log-likelihood почти нулевой. Фунт как раз ведет себя так как модель этого ожидает.
2) Насчет обучения модели каждый год — это хороший вопрос. На самом деле для подобного рода модели период обучения должен задавться в ручную и зависит от определенных произошедших в прошлом событий, которые влияли на конкретную валюту. Самый простой вариант — это выбрать данные за весь предыдущий период что я и зделал. Можно добавить опцию обучения раз в день, неделю, месяц и полгода. Это тема для отдельного исследования. Я выбрал простой вариант. Надо лишь учитывать этот при анализе графиков.
Насчет кросвалидации: У меня описательная модель. Она лишь описывает расспределение котировок. Нет никаких предсказаний на будущее. Все результаты показаны на прошлое. Ближайшее прошлое — это вчера.
3) Лучше не использовать модель как законченный торговый алгоритм, который можно встроить в робота. z-value только говорит, что имеется повышенная вероятность смены тренда на ближайшие недели. И, еще раз, модель сама по себе только описывает данные. Она ни чего не предсказывает.
4) Я не могу показывать вам свой инвестиционный портфель. Могу лишь сказать, что когда мне нужно было поменять валюту, я пользовался этим алгоритмом. И мне он очень помог.
Хороший аналог моего анализа — это анализ мошеннических операций в банковской сфере (fraud detection). Мошенники, как правило, каждый раз придумывают новые схемы. Поэтому сделать хорошую модель только на прошлых транзакций трудно. В этом случае используется подход, который выявляет аномальные транзакции. То есть такие транзакции параметры которых наблюдались редко. Например, если у вас по кредитке движение средств около 100к рублей в месяц в течении нескольких лет, а завтра появятся транзакции 1 млн в день, то банк это обязательно заметит и (скороей всего отреагирует временной блокировкой карты). Можно и более сложный пример придумать.
Моя модель говорит только об том, что взаимное распределение валюты аномально наисторическом промежутке в почти 15 лет.