35% доходность акций на альтернативных данных



Торговля на альтернативных (нестандартных) данных становится модным и перспективным. На днях попал в руки любопытный датасет от Московской Биржи по популярным акциям. После поверхностного исследования удалось получить привлекательный результат c хорошими доходностями. Подробности под катом

Содержание датасета


Датасет содержит три значения pv30, pv70, pv100 на каждый день и показывает разницу покупок и продаж группы из топ 30, 70 и 100 крупнейших трейдеров за текущий день. Т.е. отвечает на вопрос, что делали сегодня крупные игроки? Больше покупали или продавали? Например, pv100 = 500 значит, что группа из топ 100 трейдеров в совокупности купила на 500 ед. больше чем продала.

На сайте биржи можно посмотреть полное описание датасета и получить исторические значения

Охват данных:

  • 10 акций: SBER, GAZP, LKOH, GMKN, MGNT, ALRS, AFLT, ROSN, SBERP, VTBR
  • 4 года: 2014 — 2017 (открытые данные на сайте биржи)

Далее, будем рассматривать данные только по SBER, результаты остальных 9 акций в приложении ниже

Обзор данных


Статистическое описание значений pv для SBER:



Данные в динамике и их распределение:



Все три величины pv30, pv70 и pv100 сильно коррелированы (>0.95) между собой и распределены близко к нормальному с центром около нуля. Наибольший интерквартильный размах у pv30.

Цена SBER и кумулятивная сумму pv100:



Доходность за сегодня сильно коррелирует со значениями pv за сегодня ~0.8. Таким образом, можно предположить, что цену двигают участники, набирающие крупную позицию. Корреляция между движением цены завтра и значением pv за сегодня ~0.1, а это значит, что есть слабая зависимость между ними и можно попытаться предсказывать направление движение цены завтрашнего дня по данным pv за сегодня.

Торговая модель


Построим простую модель, если сегодня значение pv > 0, предполагаем что цена завтра вырастет, а иначе упадет. Значения pv сравниваем с нулем, так как средние и медианные значения pv распределены около нуля. Выражаясь проще, если сегодня крупные игроки покупали (pv > 0) на следующий день мы тоже покупаем и наоборот.

Особенности модели:

  1. В модели используется только значения pv, и не используются информация о ценах активов
  2. Открывать позицию будем в 18:40 — 18:50 на аукционе закрытия и закрывать на следующий день, в то же самое время. Время открытия позиции выбрано таким, так как значения pv публикуются в 18:30
  3. Если pv > 0, открываем длинную позицию (покупаем). Если pv < 0, открываем короткую позицию (продаем)
  4. Если два и более дня подряд значение pv положительно/отрицательно, ничего не делаем (hold). Таким образом, размер открытой позиции всегда постоянен
  5. Комиссию за сделку примем равной 0.025%
  6. Ежедневные доходности будем брать от закрытия к закрытию (close to close)

Результаты торговой модели


Сравним доходности стратегии «купить и держать» (Base) и стратегии по значениям pv30, pv70 и pv100 на отрезке в 4 года по SBER:


RETURN — доходность модели за 4 года
SHARPE — коэффициент Шарпа, безрисковая доходность rf = 6%
CAGR — среднегодовой темп роста
MAX DRAWDOWN — максимальная просадка
TRADES — количество совершенных сделок
GAIN/LOSS DAYS — количество дней, когда угадали и не угадали движение цены
Сравнение моделей в динамике:



Поквартальное сравнение доходностей базовой модели «купить и держать» против индикатора pv



Аналогичные результаты по остальным девяти инструментам можно посмотреть в приложении ниже.

Портфель акций


На примере SBER мы получили высокую доходность относительно самого актива, но тем не менее наблюдаем большую просадку за весь 2015 год. Такая картина наблюдается и по остальным акциям в разные моменты (см. приложение). А что если раскидать деньги по всем десяти акциям? Тогда, вероятно, сможем избежать крупных просадок.

Раскидать можно поровну, а можно и в пропорции соответствующей ликвидности и емкости инструмента. Тыкнув пальцем в небо Исходя из ликвидности и простоты ради выбрал такие веса: {SBER: 0.25; GAZP, LKOH: 0.15; GMKN, MGNT: 0.1, ROSN, ALRS, SBERP, AFLT, VTBR: 0.05} и сравнил доходности стратегий «купить и держать» и pv100:



Портфель из 10 бумаг управляемый значением pv100 показал доходность 35% годовых и меньшую просадку, чем стратегия «купи и держи».

Перебирая веса можно получить и 15% и 50%, но важно то, что раскидывая средства по множеству активов мы избегаем крупных просадок в нашей торговой модели.

Наблюдения, оставленные за рамками данного материала


  • Производные значения на основе pv также показывают хорошую доходность (хорошая = выше рынка): sma с короткими периодами, импульсы, нормирование на объем и др. подобные приемы из теханализа
  • В периоды пониженной волатильности лучше проявляют себя импульсы значений pv
  • Значения pv имеют хорошую чувствительность к редким сильным движениям цены, т.е. процент угадывания движений цены более 3% достигает ~75%, в то время как общий процент угадываний ~50%
  • Распределение pv по дням недели различается, особенно сильно пн от пт. Вероятно, в начале недели идет набор позиции, а к концу закрытие
  • В торговой модели, рассмотренной выше, значение pv сравнивали с 0, хотя 0 не самая оптимальная точка при максимизации доходности
  • Каждый из 10 акций имеет свои особенности по значениям pv

Мои выводы


Гипотеза следования за крупными игроками по значениям pv с лагом в один день показала результат выше рынка на отрезке 2014-2017. Утверждать, что так будет всегда, было бы самонадеянно. Что будет на новых данных? С одной стороны, нет веских оснований, почему все может сломаться, а с другой, кто знает:) Для большей уверенности нужно больше точек и свежие данные.

Модель можно было бы сделать более комплексной и получить фантастические доходности, подстроившись под имеющиеся данные, но тогда высок риск оверфита.

Пара вопросов в зал, что думаете:

  • Почему эти данные могут работать?
  • Почему эти данные могут не работать?

Приложение

Приложение


GAZP








LKOH








GMKN








MGNT








ROSN








ALRS








SBERP








AFLT








VTBR







Поделиться публикацией

Комментарии 37

    +1
    выглядит хорошо, а учитываются налоги и транзакционные издержки?
      0
      Налоги неизбежны, транзакционные тут не учитывались, и они зависят от объема транзакции
      +5
      Либо я невнимательно читал, либо в статье нечетко написано: биржа публикует данные pv в конце каждого дня? Т.е. на следующий день (вечером) можно эти данные уже анализировать? А это точно так, учитывая, что на МБ на акции действует режим Т+2?

      Комиссии почему такие низкие? У ВТБ, например, такие 0,025% можно получить при торговле от 5 млн рублей в день. А при таких условиях сам факт торговли уже будет сдвигать цену. И комиссии не ограничиваются брокером — биржа тоже свой процент берет.

      По-моему, для интрадея теоретические 35% годовых — мало. «Гладко было на бумаге, да забыли про овраги» — в реале много подводных камней.

      P.S. И можно «приложение» затолкать под спойлер? — мешают.
        0
        В описании сказано, что данные за сегодня публикуются в тот же день, перед закрытием. От сюда и логика модели, посмотрел данные за сегодня и на закрытии открыл позицию

        Комиссии у брокеров отличаются, и как правильно заметили, зависит от оборота. Можете подставить свою комиссию)

        Про спойлер — благодарю, хорошая идея)
        +8
        Спасибо за статью.

        Эти объемы по акциям с секции основного рынка? Расчеты по ценам как T+0 или T+2?

        Без определенного уровня доступа, исходные списки сделок с объемами сделок нет возможности получить. Следовательно, нет и возможности проверить достоверность расчетов индексов pv30, pv70 и pv100. Так как это не торговые индексы с открытым алгоритмом/составом (и на основе цен, которые можно проверить), я бы не стал доверять подобным выборкам данным.

        Также стоит учитывать, что:
        — акции российских эмитентов могут торговаться не только на Московской Бирже;
        — крупные игроки работают по рынку через своих брокеров с множеством ордеров в различные периоды времени (насколько я знаю, требование к такому поведению у маркетмейкеров и особых игроков, крупных держателей пакетов акций);
        — объемы деривативов на акции (фьючерсы и опционы) существенно влияют на цену базового актива, особенно перед экспирациями и в интервале отсечек (дивиденды).

        Поэтому, как минимум данные по приведенным выше объемам являются неполными и могут отражать неверное представление об объеме большинства или их сентимента цен по различным акциям.

        Не сочтите за излишнее недоверие, но, в связи с тем, что ваш профиль был зарегистрирован менее суток назад и тема статьи довольно специфическая, то хотелось бы узнать:
        — являетесь ли вы сотрудником Московской Биржи (если да, то кто конкретно),
        — имеете ли вы аффилированные отношения с Московской Биржей,
        — имеете ли вы какое-либо отношение к продажам подписок на данные Московской Биржи, использованные в статье?
          0
          Благодарю за обширный комментарий

          С моей стороны, как исследователя данных, все проще. Если ты никак не можешь повлиять на исходные данные, то тут два пути: данные улучшают модель — используешь, данные не улучшают модель — забиваешь на них и идешь искать другое. По большому счету, мне не важно, что значат и как рассчитываются pv. Касательно неполноты картины (объемов) это естественно.
          Приходилось строить модели, когда входные данные никак не описаны (засекречены) и это не мешало правильно отбирать признаки в модель и использовать.
          А торговля на этой площадке считается аффилированностью?)
            +1
            Качество моделей во многом зависит от качества входных данных. Если это качество под сомнением в плане достоверности, то и модели получатся с тем же доверительным уровнем. Да, может что-то найдется, но это будет ошибочный результат. Если подобные модели лежат в основе торговых систем, работающих на реальных деньгах — это прямой путь к убыткам. Потому нельзя полагаться даже на собственное мнение о предполагаемом качестве данных, пока на руках не будет всего необходимого про то, откуда они, на основе чего рассчитываются, как рассчитываются, какой возможный диапазон исторической волатильности по данным (чтобы сформировать alert-ы на случай ЧП и принудительно отключить наращивание объемов сделок) и прочее.

            Просто посчитать модели по данным как разминка для мозгов это всегда полезно, но для серьезной работы с данными нужны только подтвержденные факты, в т.ч. подкрепленные договорами с поставщиками услуг, чтобы максимально снизить возможные риски торговли в юридическом плане.

            Просто торговля как физлица через брокера на Мосбирже — не является аффилированностью. Мой вопрос во многом был простимулирован подозрительно возросшей с начала этого года активностью всяких околорыночных лиц и представителей некоторых брокеров, уже не ограничивающихся просто рассылкой спама и звонков с номеров, зарегистрированных на несуществующих или давно почивших физлиц, но и задалбыванием всех знакомых, данные о которых можно было достать из соцсетей и прочие откровенно агрессивные действия мошеннического характера (представление себя от чужого лица, к примеру). Также активизировалось написание статей в рунете про продажу различных синтетических данных (по аналогии с этой статьей) и различного реферрального мусора по автоследованию. И это я еще не упомянул различные негосударственные ПИФы, которые слава богу пока ограничиваются просто спамом и звонками от их некомпетентных представителей, любой вопрос которым по характеристикам предлагаемых ими услугам вызывает полный ступор.
              0
              Если вам интересно изучать ценовые dataset-ы с целью поиска интересных событий и возможных закономерностей, то предлагаю посмотреть на то, как себя ведет цена при пробое определенного среднего значения ценовой волатильности, скажем 400%. Каково при этом соотношение вероятности продолжения движения и вероятности отката. Также в каком диапазоне в процентах от движения цен наиболее вероятно нахождение цены в следующие 15 минут, к примеру. Оценить характеристики импульса движения, определить некоторые опорные точки в ценовых интервалах для приближенной постройки функции (Лагранж, Ньютон, линейно-кусочным) и последующей оценке коэффициентов 1 и 2 производных. Что значения этих коэффициентов может показать в плане оценки характеристик движения, как это потом можно применить для фильтрации несущественных событий, резких шпилей при низколиквидном рынке и что из всего этого можно было бы забрать в модель принятия решений по торговле и что в модель риск-менеджмента.

              Из всех систем за последние лет 8 (их было больше двух сотен) остались на плаву только системы, работающие на анализе пробоев и резком изменении свойств волатильности рынка. И за это время подобный подход работает как на фонде, так и на форексе (речь о наиболее высоколиквидных инструментах). Под такое поведение даже есть фундаментальное обоснование почему так (рынок деривативов по объему на порядки больше и уровни стоимости страховки зависят от волатильности базового инструмента).

              Если у вас цель не просто что-то посчитать, а нечто большее, то для экономии времени изучайте уже пройденные грабли другими, не тратя время на поиск, к примеру, чего-то стоящего в анализе паттернов в свечном представлении.

              Все новое и рабочее для рынка быстро идет в работу, при наборе объема начинает упираться в неэффективность стратегии (либо комиссии, либо недостаточный объем торгов по инструменту для стратегии, либо нестабильность ликвидности и её временнЫх характеристик и прочее). Ну а все нерабочее из идей дальше продолжает монетизироваться через статьи и книжную публицистику. Именно поэтому нет особого смысла в изучении книг по трейдингу, разве что для формирования понимания как все устроено, а не для поиска идей.
                0
                А мне просто стал интересен вопрос использования данных 2 уровня в моделировании. Ленту сделок можно собрать потиково для биржи, за неделю будет уже огромное количество информации. Конечно, там не будет разбивки по игрокам, но сумму по направлениям посчитать вполне реально.
                  0
                  А что вы имеете ввиду под суммой по направлению без привязки к участнику торгов? У тика по инструменту есть только цена, объем и время заключения сделки
                    0
                    Э, ну, я думаю, если в MetaTrader 5 есть, то уж в других, более старых, клиентах тоже должно быть. Я же говорю про тик на ЛЕНТЕ СДЕЛОК. Вот так, примерно: www.metatrader5.com/ru/releasenotes/terminal/1357

                    Ну вот, я сказал о том, что фильтрануть больших/маленьких игроков я конеш не смогу, но общим скопом взять сумму и сделать group by по полю type, например, за минуту, вообще смогу в легкую…
                      0
                      Понятно. Для каждого тика фиксируется прошла ли сделка по цене спроса или предложения.
                        0
                        Да и можно проссуммировать по buy/sell.

                        Так вот, стакан это ожидания толпы в будущем, а Лента — факт действий в прошлом. Вопрос — есть ли между этими распределениями какая-то связь (так как цена в будущем это и есть центр распределения стакана). Мутно выразился, то смысл, надеюсь, ясен.
                  0
                  рынок деривативов по объему на порядки больше

                  Вы это о форексе? цифрами можете подтвердить?
                    0
                    Деривативы, это производные финансовые инструменты. Например фьючерсы, опционы, форварды. Могут существовать на основе любого базового актива. Например валютные пары, акции или товар (золото, нефть, кукуруза и т.п.).
                    А что вы подразумеваете по словом форекс?
                      0
                      Я спрашивал, имеются ли в ввиду деривативы на валютные пары, когда утверждается что «рынок деривативов по объему на порядки больше».
                        0
                        Если под forex деривативами понимать не просто деривативы на валютные пары, но и свопы на них, кросс-свопы, CDS, CDS^2 и прочее уже структурное (у всего, что имеет валюту как изначальный базовый актив расчета) то как минимум объем деривативов сопоставим по порядку с мировым ВВП (~%80 трлн). Только по interest rate contracts ~$10 трлн market value. По всему остальному точную информацию детально сложно собрать.

                        Возможно я неправ с различием на порядки, но, как минимум рынок всех forex-деривативов сопоставим с мировым ВВП. То есть рынки соразмерны, не исключаю, что объем рынка деривативов больше, вопрос в том, что учитывать для расчета.

                        Частично оценку только валютных деривативов можно взять отсюда:
                        www.bis.org/statistics/d6.pdf. В Total определено 95,798 billions, $95 трлн (данные на первое полугодие 2018). То есть только по этой цифре можно утверждать, что объем рынка forex-деривативов (и это только деривативы на валютные пары, что не есть весь рынок forex) больше мирового ВВП.

                        В детализацию проверки утверждения не имею цели глубоко копать, тем более что-то доказывать кому-то, т.к. не вижу в этом смысла. У всех всегда есть возможность проверить любое утверждение, затратив на это свое личное время.
                      0
                      Можете посмотреть на деривативные контракты на нефть и сравнить их с поставочными прямыми контрактами. Считать это все на данный момент времени нет, но приведу информацию от нашего ЦБ на 17 год:
                      www.cbr.ru/Content/Document/File/32965/91-96_Жуков.pdf
                      Цитата оттуда:
                      "… В физическом эквиваленте объем рынка «бумажной» нефти за январь–июль 2017 г. превысил уровень мировой добычи сырой нефти более чем в 18 раз. ..."

                      Объем добычи можно считать как объемом базового актива, «бумажную нефть» как объем фьючерсных и опционных контрактов. По данным ЦБ объем деривативов на порядок больше. Я могу ошибаться, но на момент начала кризиса 2009 соотношение по нефти было около 40 к 1 или даже больше (80+ к 1 если г/г).

                      По некоторым иным инструментам, в основном синтетическим (индексы в т.ч.), различие между объемами торгов базового актива и деривативов на него действительно различается на порядки. Цифр у меня нет под рукой, но, к примеру, можно посмотреть на рынок CDS и его деривативы (CDO и иные, неструктуризированные вариации), объемы в 2009 году соотносились четырьмя порядками.
                        0
                        К слову, на форексе из деривативов есть не только фьючерсы и опционы, но и CFD, фьючерсы на CFD и более замороченные структурные инструменты. И по ним в большинстве случаев ситуация аналогичная: если базовый актив популярный и ликвидный, а также создан рынок деривативов, то объемы торгов ими различаются на порядки в сравнении с базовым активом.

                        Ситуация, когда рынок деривативов по объему меньше рынка базового инструмента, как правило, бывает только при 1) полном дефолте источника эмиссии такого инструмента (компания и ее акции), когда идет судебные процессы по учету прав требования на активы и страховки по деривативам покрыты, новой эмиссии нет или она уже запрещена, и 2) массовый дефолт маркетмейкеров по таким деривативам, такое пока не происходило в полном объеме, даже в последние кризисы, но теоретически возможно (запрет расчетов по контрактам со стороны регулятора/правительства, война и пр. фарс-мажор).
                          0
                          С нефтью-то понятно. Но из вашего поста как будто следует, что и для форекса «рынок деривативов по объему на порядки больше».
                            0
                            Я не автор этого поста. По теме комментарий выше.
                        0
                        предлагаю посмотреть на то, как себя ведет цена при пробое определенного среднего значения ценовой волатильности, скажем 400%


                        Это вы, вообще, какие рынки и инструменты имеете ввиду, где есть статистически значимое количество пробоев в 400%?
                    +4
                    Почему эти данные могут работать?

                    Самое простое объяснение: крупные игроки на российской бирже на самом деле — инсайдеры. Иными словами — мошенники.) Хотя по новому закону обсуждать это теперь нельзя.)
                      +2
                      Если попытаться получить эти данные с www.moex.com, надо согласиться с тем, что:
                      Материалы и информация (целиком или в какой-либо части) НЕ МОГУТ БЫТЬ ИСПОЛЬЗОВАНЫ В КАКИХ-ЛИБО ИНВЕСТИЦИОННЫХ ИЛИ КОММЕРЧЕСКИХ ЦЕЛЯХ, В ТОМ ЧИСЛЕ ДЛЯ СОЗДАНИЯ КАКИХ-ЛИБО ФИНАНСОВЫХ ИНСТРУМЕНТОВ, ПРОДУКТОВ ИЛИ ИНДЕКСОВ.
                        +1
                        А потом оставить телефон и номер паспорта (плюс внизу есть что-то про тариф)
                        5000 долл. США* / месяц – в соответствии с тарифом за оказание информационной услуги по предоставлению Информационно-аналитического бюллетеня
                          0
                          Юридические ограничения на использование это очень важный момент, уже на основе этого ценность таких данных для реальной работы — нулевая. Или даже отрицательная при трате времени на анализ данных.
                          +2

                          Новый способ продвижения продуктов Московской Биржи!? Без выкладывания датасета невозможно проверить :)

                            0
                            О господи, еще один. Не будет это работать, не будет. Если коротко — самые важные (прибыльные/убыточные) моменты на бирже происходят при сдвиге базовых параметров системы, которую вы так кропотливо изучали(обучали сеть) до этого сдвига. Всё, после этого события все данные можете выкидывать на помойку вместе с деньгами, которые вы потеряли.
                              0
                              Вы правы, абсолютно с вами согласен. Хотя можно ведь и не гнаться за важными моментами, а заниматься арбитражем или другими сложносочиненными стратегиями. Менее доходными, но, в некоторых пределах, чуть более устойчивыми к «сдвигам базовых параметров системы».
                              Кстати, сама по себе идея открывать позицию вечером, перенося её через торговый день на другой стороне земного шара, кажется мне уже весьма авантюристичной :)
                              Как впрочем и идея повторять движения управляющих самыми активными счетами на бирже.
                                0
                                Да поймите, что «можно не гнаться за важными моментами» и приторговывать по 0.03 процента в день, когда рынок спокоен. Любой робот такое может. Можно просто при экономическом росте купить и держать бумагу выбранную наугад.

                                Но при наступлении «важного момента» вы потеряете всё вместе с заработанным. Я проходил это всё сам и не раз, кстати.

                                Советую другую стратегию. Когда всё хорошо, копить ликвидность. А вот когда биржи начинают закрывать, на улице стреляют, по телеку лебединое озеро. Тогда достаём котлету и скупаем всё подряд. Таким образом вы не акциями торгуете, а деньгами. Их в кризис нет на рынке вы продаёте их дорого.

                                Риск, конечно, остаётся. Страна может и не выйти из кризиса при вашей жизни. Но так хотя бы есть смысл рисковать деньгами — большой риск, большой куш. Купил сбер по 17, продал через полтора года по 150.

                                Никакой алгоритм вам такого не насчитает.
                                  0
                                  Опять со всем согласен. И про робота, и про риск изменения характера рынка. Совет ваш дельный, только каждый раз, имея не руках немного ликвидности и мысля схожим образом, у меня не хватало духу так поступить.
                                    0
                                    Когда на улице стреляют и по телевизору показывают противоестественные вещи, то ваша торговая стратегия может разбиться о резко возросший риск «утраты законности» предполагаемых массовых закупок, т.е. полной потери средств и невозможности доказать право владения купленным.

                                    Как правило, в таких панических ситуациях скупают массово только те, кто уже гарантированно решил вопрос по охране законности своих приобретений на самом верхнем уровне «власти».
                                0
                                Почему нет 2018 года? Ломает все красивые графики?
                                  0
                                  Надо платить за эти данные.
                                  0
                                  Если бы это реально работало, я бы не стал это публиковать)
                                    0
                                    Так сперва нужно выяснить работает или нет)
                                    +2
                                    Хм… Я немного погуглил и нашел статью топикстартера на английском, опубликованную 28 февраля… Статья удалена (интересно почему?), но гугл-кеш помнит. По-моему, статья изначально была на английском, но ее перевели на русский с купюрами вроде месячной стоимости.

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                    Самое читаемое