Pull to refresh
1
0
Сергей@D3vAlex

Data Engineer

Send message

Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями

Level of difficultyMedium
Reading time14 min
Reach and readers5.7K

Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных.

В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.

Читать далее

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Registered
Activity

Specialization

Data Engineer
Ведущий
Python
Apache Spark
Apache Airflow
Apache Hadoop
ETL
DWH
Apache Kafka
SQL
ООП
Git