Pull to refresh
11
18
Олег Захаров @OLZ1

Senior data scientist

Send message

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало

Reading time20 min
Views1K

В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке.

В данной главе мы рассмотрим процессы авторегрессии-проинтегрированного скользящего среднего по методологии АРПСС (в англоязычной терминологии - ARIMA). Разберёмся, почему процесс АРПСС позволяет получить широкий класс стационарных и нестационарных моделей, которые адекватно описывают многие встречающиеся на практике временные ряды. А затем применим эту методологию с целью нахождения подходящего подкласса моделей из общего семейства моделей АРПСС для адекватного прогнозирования будущих значений температуры.

Читать далее
Total votes 3: ↑3 and ↓0+7
Comments2

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава первая

Reading time16 min
Views964

После перерыва продолжаю цикл статей про одно из самых интересных направлений в статистике и науке о данных — прогнозировании временных рядов (или рядов динамики, как их первоначально называли в учебниках по эконометрике). Эта работа будет не в стиле перевода с моими комментариями, а полноценное исследование на тему эффективности прогнозных моделей: мы с вами разработаем и сравним две модели прогнозирования временных рядов — традиционную статистическую модель — реализацию модели ARIMA с сезонной компонентой и экзогенными переменными под названием SARIMAX и рекуррентную модель глубокого обучения на основе слоя LSTM. Выясним, какая их них наиболее эффективно справится с климатическими данными, которые подготовил для своей книги Франсуа Шолле «Глубокое обучение с Keras», второе издание которой вышло в 2023 году. Второе издание значительно переработано в ногу со временем, и я настоятельно рекомендую изучить эту книгу как начинающим аналитикам данных, так и бывалым представителям науки о данных с багажом знаний о временных рядах.

Попутно отвечу на накопившиеся вопросы от участников сообщества, связанных как с подготовкой данных для рекуррентных нейронных сетей, так и с объяснением деталей дальнейшего использования обученных моделей.

Приводимый код в статье обогащён моими знаниями и опробован на деле — активно пользуюсь им в проектах, связанных с применением машинного обучения, и делюсь им с вами. Но перед этим я рекомендую освежить свои знания в вопросе о том, что такое одномерные и многомерные временные ряды, а также о точечном (одношаговом) и интервальном (многошаговом) прогнозировании и их выполнении (ссылка на статью).

Читать далее
Total votes 6: ↑6 and ↓0+11
Comments1

Интервальное прогнозирование временных рядов с помощью рекуррентных нейронных сетей с долгой краткосрочной памятью…

Reading time58 min
Views36K
Продолжение цикла публикаций статей про прогнозирование временных рядов. На повестке – перевод статьи How to Develop Multi-Step LSTM Time Series Forecasting Models for Power Usage.
Читать дальше →
Total votes 13: ↑13 and ↓0+13
Comments0

Прогнозирование временных рядов с помощью рекуррентных нейронных сетей

Reading time16 min
Views95K
Удалённый режим работы на фоне всеобщей самоизоляции может привести к весьма дурным последствиям. И эмоциональное выгорание – это ещё куда ни шло: там ведь и до крыши недалеко. В этой связи, как и многие, попробовал «успокоить» себя выделением времени на другие занятия – и начал переводить наиболее интересные статьи с английского языка на русский: «Даёшь машинлёрнинг в массы!».) Нужно воздать должное: здорово отвлекает. Если у вас есть предложения как по смысловому наполнению, так и по переводу данного текста для русскоязычного читателя, присоединяйтесь к обсуждению.

image
Читать дальше →
Total votes 9: ↑9 and ↓0+9
Comments6

Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn

Reading time21 min
Views24K
image

Глобальная паутина изо дня в день пополняется статьями о популярных, наиболее употребляемых алгоритмах машинного обучения для решения различных задач. Причём основа этих статей, немного изменённая по форме в том или ином месте, кочует от одного исследователя данных к другому. При этом все эти работы объединяет один общепринятый, непреложный постулат: применение того или иного алгоритма машинного обучения зависит от размера и природы имеющихся в распоряжении данных и поставленной задачи.

Вдобавок к этому особо настоявшиеся исследователи данных, делясь своим опытом, подчёркивают: «Выбор метода оценки должен частично зависеть от ваших данных и от того, в чём, по вашему мнению, модель должна быть хороша» («Data Science: инсайдерская информация для новичков. Включая язык R», авторы Кэти О’Нил, Рэйчел Шатт).
Читать дальше →
Total votes 22: ↑18 and ↓4+14
Comments36

Information

Rating
427-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity