Финансовые данные: об измерении автокорреляции, тяжелых хвостах и других статистиках (Vol 1) / Хабр

*Be aware: впереди математика. **Первая часть дискуссии о распределениях финансовых данных, подводных камнях при работе с ними и возможных решениях при оценке сопутствующих статистик.

Данная статья представляет собой первую (из трех) часть дискуссии о распределении финансовых данных и работе с ними. В этой части мы подробно обсудим с математической точки зрения некоторые подводные камни, возникающие при работе с финансовыми данными, а также (не-)применимость классических статистических методов при работе с ними. Во второй части статьи мы поговорим о возможных решениях трудностей, описанных в данной части. Наконец, в третьей части мы представим возможные реализации подхода, описанного во второй части, на языке Python, а также поговорим о примерах и применениях описанной методологии.

Короткое введение

Предположим, вы работаете с финансовыми данными; чаще всего (когда говорят о работе с финансовыми данными) — это доходности некоторого актива. Воспользуемся классическим определением доходности актива в момент времени :

$R_t = \frac{P_t - P_{t-1}}{P_{t-1}},$

где — цена актива момент времени . В качестве актива может выступать золото, нефть, Bitcoin и др.

(1) Данные об изменении цены Bitcoin (2) Доходности , вычисленные по данным об изменении цены (3) Распределение доходностей

Интересно, какими свойствами обладает временной ряд ? В литературе эмпирические свойства, характерные для доходностей финансовых активовобычно называют ситилизованными фактами и выделяют следующие ключевые из них:

[Гипотеза эффективного рынка] Отсутствие линейных зависимостей и автокорреляций: $\text{Corr}(R_t, R_{t-h}) \approx 0;$
[Нелинейные зависимости] Присутствие нелинейных зависимостей и кластеризация волатильности, которая обычно описывается высокой корреляцией нелинейных функций : $\text{Corr}(R^2_t, R^2_{t-h}) \gg 0;$
[Тяжелохвостность] Тяжелые хвосты распределения: $\mathbb{P}(R_t > x) \sim \ell(x) z^{-\zeta},$ где $\ell(x)$ — слабо меняющаяся на бесконечности функция, а $\zeta$ — хвостовой индекс.

Задача. Допустим, вы получаете выборку $\{R_{t_i}\}^N_{i=1}$ доходностей некотрого актива за промежуток времни $[t_{i_1}, t_{i_N}]$ . По этим данным вы хотите оценить, насколько эффективен рынок на данном временном интервале, а также "измерить" кластеризацию волатильности.

Если вы будете использовать классический подход, то вы, скорее всего, захотите вычислить выборочную корреляцию (для и ) а затем, используя нормальность предельного распределения, построить статистическую оценку / протестировать гипотезу / построить доверительный интервал.

Однако надежен ли такой подход в условиях распределения с тяжелыми хвостами? В этой части статьи мы с вами подробно в этом разберемся!

Проблемы классических подходов при работе с "тяжелохвостными" данными

В данной секции мы увидим, что выборочные автоковариация и автокорреляция имеют нестандартные статистические свойства, которые делают классические подходы по выявлению и измерению зависимостей из пунктов 1. и 2. выше ненадежными и плохо применимыми

Проблема моментов распределения доходностей

Рассмотрим свойство 3. доходностей из стилизованных фактов (тяжелохвостность). Удобно считать, что есть некоторая нижняя граница , начиная с которой выполняется степенной закон, тогда распределение описывается законом Парето. Напомним, что распределения Парето имеют следующие функции распределения и плотности:

$F_X(x) = \begin{cases} 1 - \left( \frac{x_m}{x} \right)^{\zeta}, \quad x \ge x_m \\ 0, \qquad \qquad \; \; \; x < x_m \end{cases}, \quad f_X(x) = \begin{cases} \frac{\zeta x_m^{\zeta}}{x^{\zeta + 1}}, \quad x \ge x_m \\ 0, \quad \; \: \: \, \; x < x_m \end{cases}.$

В таком случае моменты задаются следующими равенствами:

$\mathbb{E}(R^n_t) = \begin{cases} \infty, \quad \;\; \zeta \le n, \\ \frac{\zeta x_m^{n}}{\zeta - n}, \;\:\:\, \zeta > n \end{cases}$

Отсюда сразу же следует, что $\text{Corr}(R_t, R_{t-h})$ определена только при $\zeta > 2$ , а $\text{Corr}(R^2_t, R^2_{t-h})$ определена при $\zeta > 4$ . Эмпирические исследования же показывают, что для большинства развитых рынков $\zeta \in (2, 4)$ , в то время как для развивающихся рынков $\zeta < 2$ .

Вывод 1: Тяжелые хвосты распределения доходностей делают классические статистики ненадежными, поскольку многие моменты (а иногда даже и первый) не определены в данном случае.

Проблема сходимости выборочных автокорреляций

В работе Davis and Mikosh 1998 получены результаты о сходимости функций выборочных автоковариаций и автокорреляций для $\zeta$ -правильно меняющихся случайных процессов. В данной секции мы рассмотрим несколько случаев сходимости выборочных автоковариаций и автокорреляций для процесса(который, согласно третьему из стилизованных фактов, описывается уравнением $\mathbb{P}(R_t > x) \sim \ell(x) z^{-\zeta}$ ) в зависимости от хвостового индекса $\zeta$ .

Прежде чем перейти непосредственно к описанию сходимостей, определим выборочные функции автоковариации и автокорреляции:

Определение: Для стационарного процесса выборочной функцией автоковариации называется функция:
$\gamma_{n, X}(h) = \frac{1}{n} \sum^{n-h}_{t = 1} X_t X_{t + h}, \quad h \ge 0$ ;

Определение: Для стационарного процесса выборочной функцией автокорреляции называется функция:
$\rho_{n, X}(h) = \frac{\gamma_{n, X}(h)}{\gamma_{n, X}(0)}, \quad h \ge 1$ .

Рассмотрим сходимости данных функций для различных $\zeta$ :

$\mathbf{\zeta \in (0, 2)}$ . Тогда имеют место следующие сходимости:
$\left[ n^{1 - \frac{2}{\zeta}} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ V_h \right]{m=1,\dots,m}$
$\left[ n^{1 - \frac{2}{\zeta}} \rho_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ \frac{V_h}{V_0} \right]{m=1,\dots,m}$
и случайный вектор $\left[ V_h \right]_{m=1,\dots,m} = (V_1, \dots, V_m)$ является $\zeta/2$ -устойчивым.
$\mathbf{\zeta \in (2, 4)}$ . Тогда имеют место следующие сходимости:
$\left[ n^{1 - \frac{2}{\zeta}} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ V_h \right]{m=1,\dots,m}$
$\left[ n^{1 - \frac{2}{\zeta}} \rho_{n, X}(h) \right]_{m=1,\dots,m} \stackrel{d}{\longrightarrow} \gamma^{-1}X(0) \left[ V_h \right]{m=1,\dots,m}$
и случайный вектор $\left[ V_h \right]_{m=1,\dots,m} = (V_1, \dots, V_m)$ является $\zeta/2$ устойчивым.
$\mathbf{\zeta \in (4, \infty)}$ . Тогда имеют место следующие сходимости:
$\left[ \sqrt{n} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ G_h \right]{m=1,\dots,m}$
$\left[ \sqrt{n} \rho_{n, X}(h) \right]_{m=1,\dots,m} \stackrel{d}{\longrightarrow} \gamma^{-1}X(0) \left[ G_h \right]{m=1,\dots,m}$
и случайный вектор $\left[ G_h \right]_{m=1,\dots,m} = (G_1, \dots, G_m)$ имеет многомерное нормальное распределение.

Из соотношений выше видно, что предельное распределение выборочных автоковариаций имеет форму нормального только при $\zeta > 4$ . При $\zeta < 4$ же предельное распределение устойчиво с параметром $\alpha < 2$ (в первом случае с $\alpha < 1$ ), это же в свою очередь означает (по свойству устойчивых распределений), что у предельного распределения не определен второй момент (а значит и дисперсия), а в первом случае не определен даже первый момент. Это расширяет границы доверительного интервала. Также важно отметить, что в 1 и 2 случаях скорость сходимости существенно медленнее, чем $\sqrt{n}$ .

Вывод 2: Выборочные автоковариации и автокорреляции не всегда сходятся к нормальному распределению, а также скорость сходимости часто (в зависимости от хвостового индекса $\zeta$ ) медленнее $\sqrt{n}$ .

В первой части дискуссии мы убедились, что классические подходы оценки статистик распределения доходностей часто неприменимы из-за наличия тяжелых хвостов распределения. Этот факт наталкивает на дальнейшие размышления о поиске замены классического подхода на более устойчивый и эффективный. Такой подход существует и мы поговорим о нем в следующей части статьи. Во многом дальнейшая дискуссия будет опираться на результаты, полученные в работе Ibragimov et al. 2021.

Спасибо за прочтение!

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

10.71%Все слишком просто!3

46.43%Все слишком сложно!13

35.71%Не хватает введения и мотивации10

57.14%Не хватает примеров16

14.29%Мне все нравится!4

Проголосовали 28 пользователей. Воздержались 3 пользователя.