*Be aware: впереди математика. **Первая часть дискуссии о распределениях финансовых данных, подводных камнях при работе с ними и возможных решениях при оценке сопутствующих статистик.
Данная статья представляет собой первую (из трех) часть дискуссии о распределении финансовых данных и работе с ними. В этой части мы подробно обсудим с математической точки зрения некоторые подводные камни, возникающие при работе с финансовыми данными, а также (не-)применимость классических статистических методов при работе с ними. Во второй части статьи мы поговорим о возможных решениях трудностей, описанных в данной части. Наконец, в третьей части мы представим возможные реализации подхода, описанного во второй части, на языке Python
, а также поговорим о примерах и применениях описанной методологии.
Короткое введение
Предположим, вы работаете с финансовыми данными; чаще всего (когда говорят о работе с финансовыми данными) — это доходности некоторого актива. Воспользуемся классическим определением доходности актива в момент времени
:
где — цена актива момент времени
. В качестве актива может выступать золото, нефть, Bitcoin и др.

Интересно, какими свойствами обладает временной ряд ? В литературе эмпирические свойства, характерные для доходностей финансовых активов
обычно называют ситилизованными фактами и выделяют следующие ключевые из них:
[Гипотеза эффективного рынка] Отсутствие линейных зависимостей и автокорреляций:
[Нелинейные зависимости] Присутствие нелинейных зависимостей и кластеризация волатильности, которая обычно описывается высокой корреляцией нелинейных функций
:
[Тяжелохвостность] Тяжелые хвосты распределения:
где
— слабо меняющаяся на бесконечности функция, а
— хвостовой индекс.
Задача. Допустим, вы получаете выборку
доходностей некотрого актива за промежуток времни
. По этим данным вы хотите оценить, насколько эффективен рынок на данном временном интервале, а также "измерить" кластеризацию волатильности.
Если вы будете использовать классический подход, то вы, скорее всего, захотите вычислить выборочную корреляцию (для и
) а затем, используя нормальность предельного распределения, построить статистическую оценку / протестировать гипотезу / построить доверительный интервал.
Однако надежен ли такой подход в условиях распределения с тяжелыми хвостами? В этой части статьи мы с вами подробно в этом разберемся!
Проблемы классических подходов при работе с "тяжелохвостными" данными
В данной секции мы увидим, что выборочные автоковариация и автокорреляция имеют нестандартные статистические свойства, которые делают классические подходы по выявлению и измерению зависимостей из пунктов 1. и 2. выше ненадежными и плохо применимыми
Проблема моментов распределения доходностей
Рассмотрим свойство 3. доходностей из стилизованных фактов (тяжелохвостность). Удобно считать, что есть некоторая нижняя граница , начиная с которой выполняется степенной закон, тогда распределение
описывается законом Парето. Напомним, что распределения Парето имеют следующие функции распределения и плотности:
В таком случае моменты задаются следующими равенствами:
Отсюда сразу же следует, что определена только при
, а
определена при
. Эмпирические исследования же показывают, что для большинства развитых рынков
, в то время как для развивающихся рынков
.
Вывод 1: Тяжелые хвосты распределения доходностей делают классические статистики ненадежными, поскольку многие моменты (а иногда даже и первый) не определены в данном случае.
Проблема сходимости выборочных автокорреляций
В работе Davis and Mikosh 1998 получены результаты о сходимости функций выборочных автоковариаций и автокорреляций для -правильно меняющихся случайных процессов. В данной секции мы рассмотрим несколько случаев сходимости выборочных автоковариаций и автокорреляций для процесса
(который, согласно третьему из стилизованных фактов, описывается уравнением
) в зависимости от хвостового индекса
.
Прежде чем перейти непосредственно к описанию сходимостей, определим выборочные функции автоковариации и автокорреляции:
Определение: Для стационарного процесса
выборочной функцией автоковариации называется функция:
;
Определение: Для стационарного процесса
выборочной функцией автокорреляции называется функция:
.
Рассмотрим сходимости данных функций для различных :
. Тогда имеют место следующие сходимости:
и случайный вектор
является
-устойчивым.
. Тогда имеют место следующие сходимости:
и случайный вектор
является
устойчивым.
. Тогда имеют место следующие сходимости:
и случайный вектор
имеет многомерное нормальное распределение.
Из соотношений выше видно, что предельное распределение выборочных автоковариаций имеет форму нормального только при . При
же предельное распределение устойчиво с параметром
(в первом случае с
), это же в свою очередь означает (по свойству устойчивых распределений), что у предельного распределения не определен второй момент (а значит и дисперсия), а в первом случае не определен даже первый момент. Это расширяет границы доверительного интервала. Также важно отметить, что в 1 и 2 случаях скорость сходимости существенно медленнее, чем
.
Вывод 2: Выборочные автоковариации и автокорреляции не всегда сходятся к нормальному распределению, а также скорость сходимости часто (в зависимости от хвостового индекса
) медленнее
.
В первой части дискуссии мы убедились, что классические подходы оценки статистик распределения доходностей часто неприменимы из-за наличия тяжелых хвостов распределения. Этот факт наталкивает на дальнейшие размышления о поиске замены классического подхода на более устойчивый и эффективный. Такой подход существует и мы поговорим о нем в следующей части статьи. Во многом дальнейшая дискуссия будет опираться на результаты, полученные в работе Ibragimov et al. 2021.
Спасибо за прочтение!