Как стать автором
Обновить
11
18
Олег Захаров @OLZ1

Senior data scientist

Отправить сообщение

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало

Время на прочтение20 мин
Количество просмотров948

В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке.

В данной главе мы рассмотрим процессы авторегрессии-проинтегрированного скользящего среднего по методологии АРПСС (в англоязычной терминологии - ARIMA). Разберёмся, почему процесс АРПСС позволяет получить широкий класс стационарных и нестационарных моделей, которые адекватно описывают многие встречающиеся на практике временные ряды. А затем применим эту методологию с целью нахождения подходящего подкласса моделей из общего семейства моделей АРПСС для адекватного прогнозирования будущих значений температуры.

Читать далее
Всего голосов 3: ↑3 и ↓0+7
Комментарии2

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава первая

Время на прочтение16 мин
Количество просмотров937

После перерыва продолжаю цикл статей про одно из самых интересных направлений в статистике и науке о данных — прогнозировании временных рядов (или рядов динамики, как их первоначально называли в учебниках по эконометрике). Эта работа будет не в стиле перевода с моими комментариями, а полноценное исследование на тему эффективности прогнозных моделей: мы с вами разработаем и сравним две модели прогнозирования временных рядов — традиционную статистическую модель — реализацию модели ARIMA с сезонной компонентой и экзогенными переменными под названием SARIMAX и рекуррентную модель глубокого обучения на основе слоя LSTM. Выясним, какая их них наиболее эффективно справится с климатическими данными, которые подготовил для своей книги Франсуа Шолле «Глубокое обучение с Keras», второе издание которой вышло в 2023 году. Второе издание значительно переработано в ногу со временем, и я настоятельно рекомендую изучить эту книгу как начинающим аналитикам данных, так и бывалым представителям науки о данных с багажом знаний о временных рядах.

Попутно отвечу на накопившиеся вопросы от участников сообщества, связанных как с подготовкой данных для рекуррентных нейронных сетей, так и с объяснением деталей дальнейшего использования обученных моделей.

Приводимый код в статье обогащён моими знаниями и опробован на деле — активно пользуюсь им в проектах, связанных с применением машинного обучения, и делюсь им с вами. Но перед этим я рекомендую освежить свои знания в вопросе о том, что такое одномерные и многомерные временные ряды, а также о точечном (одношаговом) и интервальном (многошаговом) прогнозировании и их выполнении (ссылка на статью).

Читать далее
Всего голосов 6: ↑6 и ↓0+11
Комментарии1

Интервальное прогнозирование временных рядов с помощью рекуррентных нейронных сетей с долгой краткосрочной памятью…

Время на прочтение58 мин
Количество просмотров36K
Продолжение цикла публикаций статей про прогнозирование временных рядов. На повестке – перевод статьи How to Develop Multi-Step LSTM Time Series Forecasting Models for Power Usage.
Читать дальше →
Всего голосов 13: ↑13 и ↓0+13
Комментарии0

Прогнозирование временных рядов с помощью рекуррентных нейронных сетей

Время на прочтение16 мин
Количество просмотров94K
Удалённый режим работы на фоне всеобщей самоизоляции может привести к весьма дурным последствиям. И эмоциональное выгорание – это ещё куда ни шло: там ведь и до крыши недалеко. В этой связи, как и многие, попробовал «успокоить» себя выделением времени на другие занятия – и начал переводить наиболее интересные статьи с английского языка на русский: «Даёшь машинлёрнинг в массы!».) Нужно воздать должное: здорово отвлекает. Если у вас есть предложения как по смысловому наполнению, так и по переводу данного текста для русскоязычного читателя, присоединяйтесь к обсуждению.

image
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии6

Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn

Время на прочтение21 мин
Количество просмотров24K
image

Глобальная паутина изо дня в день пополняется статьями о популярных, наиболее употребляемых алгоритмах машинного обучения для решения различных задач. Причём основа этих статей, немного изменённая по форме в том или ином месте, кочует от одного исследователя данных к другому. При этом все эти работы объединяет один общепринятый, непреложный постулат: применение того или иного алгоритма машинного обучения зависит от размера и природы имеющихся в распоряжении данных и поставленной задачи.

Вдобавок к этому особо настоявшиеся исследователи данных, делясь своим опытом, подчёркивают: «Выбор метода оценки должен частично зависеть от ваших данных и от того, в чём, по вашему мнению, модель должна быть хороша» («Data Science: инсайдерская информация для новичков. Включая язык R», авторы Кэти О’Нил, Рэйчел Шатт).
Читать дальше →
Всего голосов 22: ↑18 и ↓4+14
Комментарии36

Информация

В рейтинге
402-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность