@i_shutov Sep 15 2016 at 14:40

Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»

6 min

7.5K

Big Data * Data Mining * R *

+13

Comments 7

@tumbler Sep 15 2016 at 15:30

А можно ссылки на используемые алгоритмы?

@i_shutov Sep 16 2016 at 08:35

Про какие именно алгоритмы заданы вопросы? Работа с временными рядами? Подходы к решению задачи будут сильно зависеть от характера самих рядов, например, наличие периодических составляющих.
Тут ничего нового нет, используем хорошо известное старое, но с адаптацией под особенности работы конкретных бизнес-процессов компании и информационных систем

Линейная корреляция рядов практически бесполезна, поскольку различные метрики могут иметь совершенно разные временные ряды, как по абсолютным значениям, так и по "дребезгу". Но при этом поведение ("как бы", 1-ая производная) может совпадать в фазе или в противофазе, иногда с определенной временной задержкой. Что может быть полезно с точки зрения практических упражнений?
Ссылки даю на англоязычные труды, поскольку они нашли реализацию в тех или иных пакетах R.

Предварительное сглаживание и устранение мелкого дребезга.
Прогнозирование. Можно ознакомиться с сайтом и трудами Rob J Hyndman, автором пакета forecast.
Также можно прочитать его книгу "Forecasting: principles and practice"
Построение поведенческих профилей метрик и переход от анализа абсолютных значений рядов к отклонениям от поведенческого профиля. То, что западные компании называют "deviation from baseline & behavior analysis". (см., например, Anomaly Detection Using Elasticsearch)
Поиск нетипичных значений и выбросов. Например, можно начать читать с twitter GitHub
Поиск точек смена поведения (change point analysis). Можно почитать статью
Немного погружаемся в архитектуру ОС и железа. Очень интересные методики созданы Brendan Gregg, можно начать знакомиться с его сайта

@tumbler Sep 16 2016 at 08:38

Класс! Есть с чего начинать :)

@i_shutov Sep 19 2016 at 07:31

Кстати, далеко ходить не надо.
Весьма интересная ссылка: "Monitoring R Applications with RZabbix"
и демо на Shiny app

@vmrm Sep 15 2016 at 20:17

очень интересно! если вас не затруднит, можно подробнее? (алгоритмы и реализацию)

@knagaev Sep 16 2016 at 10:20

Заинтересовал термин hadleyverse.
Положу сюда две найденных хороших ссылки
Packages of the Hadleyverse. Power for your R. Barry Rowlingson
The Hitchhiker's Guide to the Hadleyverse BY ADOLFO ÁLVAREZ

@AristarXXXX Sep 16 2016 at 13:38

Очень "правдивая" статья. У нас этот "зонтичный" мониторинг был как заноза в мягком месте несколько лет, пока манагеры не успокоились. Абсолютно точно, что люди, которые не очень понимают, как "всё" работает хотят это "всё" собирать, хранить 5 лет и сурово анализировать. Без понимания целей и желаемых результатов, кроме "чтобы всё работало" и умные слова типа "калобарэйшн" и "он сайт", которые произносятся не к месту, но с умным видом. Причём обязательно сделать самим, без взаимодействия "вон с теми выскочками из соседнего управления", которые тоже пытаются что-то похожее внедрить.
А потом, когда все успокоились, мы спокойно взяли приоритетные проекты, определили возможные источники информации в совокупности с нашими умениями, положили все данные в промежуточную базу (это не обязательно) и силами R вытянули и свели верхнеуровневую инфу в едином интерфейсе. Потом всё это по-тихому вывели на телевизор руководителям. В итоге, телевизор не выключается, руководители довольны, IT процессы, с их точки зрения, стали понятне, мы — молодцы. Хотя, по факту, ничего особенного сделано не было.