Обновить
12
0
Олег Захаров@OLZ1

Senior data scientist

Отправить сообщение

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Завершение

Время на прочтение38 мин
Охват и читатели444

В прошлых частях второй главы мы с вами определили оптимальные значения параметров (p, d, q) статистических моделей семейства АРПСС по одноимённой методологии, и выполнили две подходящие модели, включая сезонную модель. В этой, завершающей, части мы будем использовать временной ряд со значениями температуры в качестве сигнала и применим к нему дискретное преобразование Фурье, чтобы выявить сезонные компоненты и разложить их на составляющие гармоники, сумму которых будем использовать в качестве экзогенной переменной. В конце выясним, сможет ли это улучшить точность предсказаний моделей.

Читать далее

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Время на прочтение29 мин
Охват и читатели2.2K

В прошлой части мы с вами остановились на том, что обнаружили у временного ряда с температурой две сезонности и, несмотря на это, решили двигаться дальше в выполнении сезонной модели САРПСС по методологии АРПСС. В этой части второй главы мы с вами продолжим применение методологии для поиска оптимальных параметров модели, которая будет адекватно описывать целевой временной ряд с температурой.

Читать далее

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало

Время на прочтение20 мин
Охват и читатели1.2K

В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке.

В данной главе мы рассмотрим процессы авторегрессии-проинтегрированного скользящего среднего по методологии АРПСС (в англоязычной терминологии - ARIMA). Разберёмся, почему процесс АРПСС позволяет получить широкий класс стационарных и нестационарных моделей, которые адекватно описывают многие встречающиеся на практике временные ряды. А затем применим эту методологию с целью нахождения подходящего подкласса моделей из общего семейства моделей АРПСС для адекватного прогнозирования будущих значений температуры.

Читать далее

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава первая

Время на прочтение16 мин
Охват и читатели1.1K

После перерыва продолжаю цикл статей про одно из самых интересных направлений в статистике и науке о данных — прогнозировании временных рядов (или рядов динамики, как их первоначально называли в учебниках по эконометрике). Эта работа будет не в стиле перевода с моими комментариями, а полноценное исследование на тему эффективности прогнозных моделей: мы с вами разработаем и сравним две модели прогнозирования временных рядов — традиционную статистическую модель — реализацию модели ARIMA с сезонной компонентой и экзогенными переменными под названием SARIMAX и рекуррентную модель глубокого обучения на основе слоя LSTM. Выясним, какая их них наиболее эффективно справится с климатическими данными, которые подготовил для своей книги Франсуа Шолле «Глубокое обучение с Keras», второе издание которой вышло в 2023 году. Второе издание значительно переработано в ногу со временем, и я настоятельно рекомендую изучить эту книгу как начинающим аналитикам данных, так и бывалым представителям науки о данных с багажом знаний о временных рядах.

Попутно отвечу на накопившиеся вопросы от участников сообщества, связанных как с подготовкой данных для рекуррентных нейронных сетей, так и с объяснением деталей дальнейшего использования обученных моделей.

Приводимый код в статье обогащён моими знаниями и опробован на деле — активно пользуюсь им в проектах, связанных с применением машинного обучения, и делюсь им с вами. Но перед этим я рекомендую освежить свои знания в вопросе о том, что такое одномерные и многомерные временные ряды, а также о точечном (одношаговом) и интервальном (многошаговом) прогнозировании и их выполнении (ссылка на статью).

Читать далее

Интервальное прогнозирование временных рядов с помощью рекуррентных нейронных сетей с долгой краткосрочной памятью…

Время на прочтение58 мин
Охват и читатели45K
Продолжение цикла публикаций статей про прогнозирование временных рядов. На повестке – перевод статьи How to Develop Multi-Step LSTM Time Series Forecasting Models for Power Usage.
Читать дальше →

Прогнозирование временных рядов с помощью рекуррентных нейронных сетей

Время на прочтение16 мин
Охват и читатели118K
Удалённый режим работы на фоне всеобщей самоизоляции может привести к весьма дурным последствиям. И эмоциональное выгорание – это ещё куда ни шло: там ведь и до крыши недалеко. В этой связи, как и многие, попробовал «успокоить» себя выделением времени на другие занятия – и начал переводить наиболее интересные статьи с английского языка на русский: «Даёшь машинлёрнинг в массы!».) Нужно воздать должное: здорово отвлекает. Если у вас есть предложения как по смысловому наполнению, так и по переводу данного текста для русскоязычного читателя, присоединяйтесь к обсуждению.

image
Читать дальше →

Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn

Время на прочтение21 мин
Охват и читатели26K
image

Глобальная паутина изо дня в день пополняется статьями о популярных, наиболее употребляемых алгоритмах машинного обучения для решения различных задач. Причём основа этих статей, немного изменённая по форме в том или ином месте, кочует от одного исследователя данных к другому. При этом все эти работы объединяет один общепринятый, непреложный постулат: применение того или иного алгоритма машинного обучения зависит от размера и природы имеющихся в распоряжении данных и поставленной задачи.

Вдобавок к этому особо настоявшиеся исследователи данных, делясь своим опытом, подчёркивают: «Выбор метода оценки должен частично зависеть от ваших данных и от того, в чём, по вашему мнению, модель должна быть хороша» («Data Science: инсайдерская информация для новичков. Включая язык R», авторы Кэти О’Нил, Рэйчел Шатт).
Читать дальше →

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Аналитик по данным, Программный аналитик
Ведущий