Как стать автором
Обновить
48.92
Росатом
Работа на стыке науки и ИТ

Проблемы качества промышленных данных (временных рядов)

Время на прочтение3 мин
Количество просмотров2.9K

Привет, Хабр! На связи Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”. В рамках рабочих обязанностей я решаю задачи в промышленности с помощью машинного обучения. 

Большую часть работы по созданию моделей составляет работа с промышленными данными.В условиях стремительного роста объема информации, собираемой на производственных предприятиях в связи с развитием интернета вещей (сбор и хранение данных), важным аспектом становится качество таких данных. В то же время проблемы и ошибки в них становятся препятствием для применения методов машинного обучения и построения моделей на основе законов физики или предметной области. Такие проблемы, как выбросы, пропуски, изменение частоты дискретизации, шум, искажают результаты или делают невозможным практическое использование данных для машинного обучения.

В этой статье мы посмотрим на часто встречающиеся проблемы в промышленных данных типа временных рядов. О том, что такое временной ряд, и о других особенностях задач в промышленности я рассказываю в других статьях на хабре, рекомендую познакомиться, а мы пока перейдем к сути! На схеме ниже приведен большой список проблем в данных, о которых мы поговорим в статье.

Обзор проблем

  • Пропущенные значения (потеря данных): пропуски в последовательности точек во временном ряду с регулярной частотой дискретизации.

  • Внезапные сдвиги: изменения в статистической модели, из которой генерируются данные (изменение технологического процесса, изменение режима эксплуатации, замена или перекалибровка датчика).

  • Изменения диапазона: аналогичны Внезапным сдвигам.

  • Чередование сигналов: сигналы «меняются местами».

  • Отсутствие или изменение частоты дискретизации: при отсутствии или изменении частоты дискретизации становится невозможным применить какой-либо способ анализа временных рядов, где требуется регулярность временной сетки.

  • Зашумленные данные и меняющийся уровень шума: слишком высокий или изменяющийся во времени уровень шума в данных.

  • Недостаточная уникальность измерений: значения становятся неточными из-за округления, высокой апертуры либо других факторов.

  • Выбросы и невозможные значения: единичные отклонения от ожидаемого поведения данных или значения вне допустимого диапазона доменной области.

  • Несбалансированность классов: Дисбаланс нормального и аномального классов данных ограничивает возможности применения моделей машинного обучения. Также важно помнить, что такая проблема также может возникать из-за смещения в выборке данных, а не всей генеральной совокупности.

  • Отсутствие значений в классе: Отсутствие значений, например, в аномальном классе, делает невозможным использование методов машинного обучения с учителем (supervised) или частичного обучения с учителем (semi-supervised).

  • Краткая история данных: История записи данных слишком коротка для их анализа и обучения моделей.

  • Единицы измерения: единицы измерения не одинаковы для всех сигналов или источников данных, например, сантиметры и дюймы.

  • Синхронизация времени: временные метки измерений, поступающих из разных источников, могут немного отличаться, например, UTC+0 и UTC+3.

  • Типы данных: различные типы данных, например, float и string.

Заключение

Таким образом, этап предварительной обработки данных в пайплайне решения или в процессе проекта становится одним из самых важных для обеспечения качественных результатов решения задач и даже применимости некоторых методов машинного обучения. Подробности, касающиеся части предварительной обработки, были представлены в этой статье и ссылках в ней.

Больше информации по теме можно почитать в этих статьях:

Могут быть полезны следующие научные статьи по теме проблем в данных:

  • Gitzel, Ralf. “Data Quality in Time Series Data: An Experience Report.” CBI (Industrial Track). 2016.

  • Pastorello, Gilberto, et al. “Observational data patterns for time series data quality assessment.” 2014 IEEE 10th International Conference on e-Science. Vol. 1. IEEE, 2014.

  • Hubauer, Thomas, et al. “Analysis of data quality issues in real-world industrial data.” Annual Conference of the PHM Society. Vol. 5. №1. 2013.

Теги:
Хабы:
Всего голосов 6: ↑4 и ↓2+2
Комментарии11

Публикации

Информация

Сайт
rosatom.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия