Обновить
1
0
Сергей@D3vAlex

Data Engineer

Отправить сообщение

Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.6K

Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных.

В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Зарегистрирован
Активность

Специализация

Data Engineer
Ведущий
Python
Apache Spark
Apache Airflow
Apache Hadoop
ETL
DWH
Apache Kafka
SQL
ООП
Git