AI-SHA 20 мая в 09:59

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса

Средний

11 мин

3.5K

Блог компании КриптонитBig Data * Open source * Python * Apache *

Аналитика

Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и спрогнозировали дальнейшее развитие на основе выявленных тенденций.

Растущая востребованность Spark объясняется не только открытым исходным кодом и гибкостью, но и лёгкостью интеграции с современными технологиями — от машинного обучения до облачных платформ.

«В России Apache Spark становится не просто популярным фреймворком для обработки данных, а частью экосистемы отечественных решений в сфере Big Data. Особенно это касается объектов критической инфраструктуры, где всегда отдаётся предпочтение только самым надёжным и проверенным решениям», — пояснил Иван Попович, руководитель направления обработки данных компании «Криптонит».

Для критически важных отраслей (госуправление, финансы, энергетика) важна локализация данных и соответствие требованиям регуляторов.

«Открытый исходный код здесь играет ключевую роль, так как обеспечивает прозрачность и возможность тщательной верификации. Также он даёт уникальную возможность адаптировать решение под конкретные требования проекта. Хотя само по себе наличие открытого кода не является гарантией безопасности, Apache Spark за 15 лет своего развития доказал эффективность и надёжность в самых различных областях применения», — добавил эксперт.

В последние годы Spark проникает в новые сферы. Он всё активнее используется в агропромышленном комплексе, энергетике, нефтегазовой и химической отрасли. В основном его применяют для оптимизации производства, прогнозирования аварий и повышения энергоэффективности.

Это дополняет традиционные сценарии, в которых крупные компании внедряют Spark для обработки больших объёмов данных в реальном времени, аналитики поведения пользователей и персонализации рекомендаций. В России Spark применяется также для анализа данных в телекоммуникациях и государственных системах, например, для интеграции с ЕГИСЗ в здравоохранении.

Как развивается Apache Spark?

Сообщество разработчиков Apache Spark придерживается регулярного графика выхода новых версий, которые выпускаются в двух ветках: стабильной (сейчас это версия 3.x) и экспериментальной (4.x). За последние 5 лет вышло 6 стабильных релизов Spark (от 3.0 в июне 2020 г. до 3.5 в сентябре 2023 г.

Экспериментальная версия ветки 4.x появилась в 2024 году и публикуется в стадии preview для тестирования новых функций. Каждая стабильная версия Spark содержит буквально тысячи новых функций и улучшений. Например в релизе Spark 3.0 (2020) было обработано более 3400 Jira-тикетов, а в Spark 3.5 (2023) — 1324 тикета.

Кроме основных релизов Spark есть патч-релизы. Чёткого графика у них нет, так как они выпускаются по мере необходимости исправить найденные ошибки. В среднем получается примерно раз в квартал. Так, в ветке 3.5 было выпущено 5 патч-релизов (3.5.0–3.5.5) за 18 месяцев (сентябрь 2023 г – март 2025 г).

Патч-релизы содержат значительно меньше изменений (обычно каждый из них обрабатывает 100–300 тикетов). Они выходят для оперативного исправления багов и добавления мелких улучшений.

Приведённая выше статистика показывает, что Spark постоянно развивается, и каждый год в нём происходят важные изменения. Среди последних можно выделить следующие:

Улучшение производительности: В версиях Spark 3.x появились оптимизации, такие как Adaptive Query Execution (AQE) и Dynamic Partition Pruning, которые повышают скорость обработки данных.
Добавление Spark Connect — это компонент для удалённого подключения к кластерам Spark. Он был впервые представлен в апреле 2023 года в релизе Apache Spark 3.4.0. Spark Connect позволяет приложениям взаимодействовать со Spark через API DataFrame, используя протокол gRPC для передачи неразрешённых логических планов между клиентом и сервером.
Появление в 2023 г. ускорителя обработки запросов DataFusion Comet, написанного на языке Rust. Он легко интегрируется с экосистемой Spark без необходимости внесения каких-либо изменений в код.
Поддержка Dataset API: Переход от RDD к Dataset API упрощает разработку и улучшает производительность.
Интеграция с хранилищами разного типа: Spark интегрируется с Hadoop, HDFS, Cassandra, Amazon S3, а также с решениями класса Data Lakehouse (например, Delta Lake). Последние , объединяют преимущества классических хранилищ и «озёр данных», то есть позволяют собирать, хранить и обрабатывать большие объёмы данных в их исходном формате. Такая разноплановая интеграция позволяет строить на основе Spark гибкие архитектуры для хранения, обработки и анализа данных, что критично для компаний с разнородными источниками информации.
Поддержка Python (PySpark): Рост популярности PySpark среди аналитиков данных благодаря простоте и интеграции с экосистемой Python.
Кроссплатформенность: Spark адаптируется для работы с Kubernetes, что упрощает развёртывание в облачных и гибридных средах.
Унификация платформы: Spark поддерживает API на Python, Scala, Java и R, что делает его универсальным инструментом для команд с разным технологическим стеком.

Основной фокус в Spark 4.0 — повышение гибкости работы с данными и упрощение интеграции с Python. В предварительном релизе 4.0 появился новый тип данных VARIANT для поддержки сложных, полуструктурированных данных, а также для упрощения обработки JSON и других форматов.

«Эволюция Spark Connect способна кардинально расширить возможности взаимодействия с Apache Spark и привлечь большее число разработчиков. Традиционно Spark используется с такими языками программирования, как Scala, Python и Java. Spark Connect открывает перспективы для создания приложений на других языках, включая Go, Rust и платформы .NET. Хотя текущая реализация Spark Connect имеет определённые ограничения по сравнению с классическими подходами, в будущем эти барьеры будут устранены, что сделает платформу ещё более универсальной», — отметил Иван Попович.

В 2024–2025 годах бизнес все чаще выбирает Spark для задач потоковой аналитики: обработка данных в реальном времени становится стандартом для ритейла, финансов, телекоммуникаций и логистики. Spark Streaming позволяет компаниям оперативно реагировать на изменения в поведении клиентов, отслеживать транзакции, выявлять мошенничество и оптимизировать цепочки поставок.

Основные сферы применения Spark

С каждым годом Spark проникает во всё большее число отраслей, и на то есть ряд причин.

«Успех Apache Spark обусловлен его способностью эффективно работать с распределёнными системами, что стало ответом на ограничения традиционных реляционных баз данных. Реляционные базы хранили данные и индексы вместе, что затрудняло горизонтальное масштабирование и вынуждало полагаться на дорогостоящее вертикальное. Появление хранилищ с разделением данных и индексов, таких как NoSQL-системы, решило эту проблему, обеспечив гибкость и масштабируемость. Spark стал универсальным инструментом — своеобразным клеем, который связывает различные хранилища, будь то графовые базы, документо-ориентированные или индексные системы, позволяя бизнесу адаптироваться к растущим объёмам данных и комбинировать их в любых конфигурациях», — пояснил Михаил Богомазов, руководитель группы по направлению обработки данных в компании «Криптонит».

Напомним, что реляционные базы данных (RDBMS) хранят данные и индексы вместе, что усложняет горизонтальное масштабирование из-за необходимости синхронизации. NoSQL-системы, такие как Cassandra или MongoDB, разделяют данные и индексы, что упрощает распределение данных по узлам. Современные системы, такие как Elasticsearch или Apache Cassandra, также используют архитектуру с разделением данных и индексов. Это улучшает масштабируемость и производительность.

Другим важным фактором, способствующим росту популярности Spark, является глубокая оптимизация кода.

«Spark выделяется своей способностью динамически генерировать код и эффективно распределять задачи по узлам кластера, воплощая концепции параллелизма, схожие с таковыми в библиотеке MPI (Message Passing Interface) на C++. Он использует механизм генерации байт-кода для оптимизации выполнения задач и сокращения накладных расходов на десериализацию, распределяя задачи по узлам кластера. Вдобавок, многие крупные вендоры, такие как Databricks, IBM и Cloudera, предоставляют оптимизированные драйверы и библиотеки для Spark. Всё это делает Spark незаменимым для построения гибких и производительных конвейеров обработки больших данных. Он позволяет не только справляться с увеличивающимися нагрузками, но и трансформировать ИТ-инфраструктуру с минимальными затратами в соответствии с новыми бизнес-процессами», — добавил Михаил Богомазов.

В настоящее время можно выделить следующие ключевые сферы, в которых Spark отводится большая роль:

Интернет вещей (IoT): Spark используется в IoT-платформах для обработки потоковых данных от множества устройств.
Информационная безопасность: Spark применяется в анализе логов и для обнаружения угроз в реальном времени. Он интегрируется с внешними источниками данных, такими как базы утечек и уязвимостей.
Промышленность и логистика: Прогнозирование спроса, оптимизация цепочек поставок и управление производственными процессами.
Маркетинг и реклама: Обработка данных для таргетинга, анализа эффективности кампаний и создания креативов с помощью ИИ.
Научные исследования: Обработка больших массивов данных в биоинформатике, физике и климатологии.
Промышленность и логистика: Прогнозирование спроса, оптимизация цепочек поставок и управление производственными процессами.

В последние годы крупные компании используют Spark для обработки больших объёмов данных в реальном времени, аналитики поведения пользователей и персонализации рекомендаций. Банки и финтех-компании применяют Spark для обнаружения мошенничества, анализа рисков и прогнозирования оттока клиентов. Ведущие интернет-магазины используют Spark для анализа транзакций, рекомендаций и кластеризации клиентов.

В России Spark применяется также для анализа данных в телекоммуникациях и государственных системах, например, для интеграции с ЕГИСЗ в здравоохранении. Также в нашей стране Spark всё активнее используется в агропромышленном комплексе, энергетике, нефтегазовой и химической отрасли. В основном его применяют для оптимизации производства, прогнозирования аварий и повышения энергоэффективности.

«Apache Spark сочетает удачную архитектуру, огромный охват и активное сообщество разработчиков. Это зрелая платформа, поддерживающая современные тенденции в ИТ и бизнесе. Долгие годы Spark доминирует в области обработки больших данных как наиболее универсальный фреймворк, непрерывно расширяющий функциональность. Хотя уже существуют новые инструменты, адаптированные для потоковой обработки данных, они развиваются медленно и пока не имеют явного лидера. Поэтому Spark и сегодня остаётся непревзойдённым по соотношению эффективности к затратам», — пояснил руководитель группы разработки витрин данных в компании «Криптонит» Евгений Кинчаров.

Интеграция Spark с другими продуктами

Как уже говорилось выше Spark — своеобразный клей, с помощью которого можно соединять различные элементы для сбора, хранения и анализа данных. Вот основные направления интеграции Spark:

1. Облачные платформы:

· AWS: Amazon EMR (Elastic MapReduce) для запуска Spark в облаке.

· Microsoft Azure: Azure Databricks, интегрированный с Spark для аналитики и ML.

· Google Cloud: Dataproc для обработки данных с использованием Spark.

· Yandex Data Processing: cервис для обработки массивов данных с использованием Spark, Hadoop и других сервисов экосистемы Apache.

· VK Cloud / Cloud Spark: бета-версия сервиса для распределённой обработки данных.

2. Инструменты BI и визуализации: Spark интегрируется с Tableau, Power BI и Apache Zeppelin для визуализации данных.

3. Экосистема Hadoop: HDFS, Hive, HBase для хранения и обработки данных.

4. Потоковые системы: Kafka, Flink и Storm для обработки данных в реальном времени.

5. ML-фреймворки: TensorFlow, PyTorch и Scikit-learn для обучения моделей на данных, подготовленных в Spark.

6. SQL-инструменты: Spark SQL позволяет обращаться к данным в Data Lake, используя язык запросов SQL, что позволяет быстро обрабатывать данные.

7. Классические реляционные СУБД: Spark позволяет интегрироваться с традиционными базами данных (PostgreSQL, MySQL) и инструментами аналитики.

Главные тренды

В развитии Spark и практике его применения отмечаются следующие ключевые тренды:

Рост популярности обработки данных в реальном времени: Spark Streaming и Structured Streaming активно используются для потоковой обработки данных, что делает Spark предпочтительным инструментом для приложений, требующих низкой задержки (например, IoT, финансовые транзакции, игровая аналитика).

Интеграция с искусственным интеллектом и машинным обучением: Библиотека машинного обучения Spark MLLib становится всё более популярной для создания масштабируемых моделей ML. Компании используют Spark для подготовки данных и обучения моделей в сочетании с современными фреймворками, такими как TensorFlow и PyTorch.

Облачные решения и платформенная интеграция: Spark активно интегрируется с облачными платформами (AWS, Azure, Google Cloud), что упрощает развёртывание и масштабирование. Это соответствует глобальному тренду перехода компаний на облачные решения. Согласно исследованию ESG, 43% компаний уже переносят Spark в облако, используя такие сервисы, как Amazon EMR, Azure Databricks и Google Dataproc. Это позволяет быстро масштабировать ресурсы, снижать капитальные затраты и ускорять запуск новых аналитических проектов.

Оптимизация для гибридных систем: Spark адаптируется для работы в гибридных средах, объединяющих локальные и облачные ресурсы, что особенно актуально для обработки чувствительных данных и в условиях санкционного давления.

Open Source: Spark продолжает развиваться, в том числе благодаря открытому исходному коду. Это привлекает как разработчиков, так и компании, которые стремятся к безопасности через максимальную прозрачность, ищут кастомизируемые решения и способы снижения затрат на ИТ-инфраструктуру.

Ведущие вузы и корпоративные университеты (например, МГУ, МФТИ, ТГУ и Яндекс.Практикум) активно внедряют курсы по Spark и Data Engineering, что формирует устойчивый кадровый резерв для цифровой трансформации бизнеса и госструктур.

Прогнозы экспертов на ближайшие годы

По прогнозам аналитков Gartner, к 2027 году более 70% предприятий в мире будут использовать облачные платформы. Spark тоже всё чаще используют через облачные платформы, такие как Databricks и AWS EMR, из-за удобства масштабирования и интеграции. При этом в России Spark имеет больший потенциал для развития в рамках импортозамещения и локальных ИТ-решений.

Увеличение роли Spark в сфере ИИ: Spark станет ключевым инструментом для подготовки данных и обучения моделей ИИ, особенно в корпоративных системах, где требуется обработка больших объёмов данных.

Появление serverless Spark (например, на базе AWS Glue, Databricks Serverless) позволит бизнесу запускать аналитику по требованию без управления инфраструктурой. В сочетании с граничными вычислениями (edge computing) Spark будет применяться для обработки данных на периферии, снижая задержки и нагрузку на центральные серверы.

Расширение в новых отраслях: ожидается проникновение Spark в энергетику (анализ данных с возобновляемых источников) и сельское хозяйство (обработка данных с датчиков температуры, влажности и солёности почвы).

Конкуренция с альтернативами: Несмотря на популярность, Spark может уступать в сценариях с критически низкой задержкой (latency), где предпочтение отдается Kafka Streams, Flink или Storm. Компании будут выбирать Spark для задач, где важна масштабируемость, а не минимальная задержка.

В России Spark может стать частью экосистемы отечественных решений для обработки данных, особенно в критической инфраструктуре, благодаря открытости кода и гибкости. При этом внедрение Spark в чувствительных отраслях (здравоохранение, финансы) будет сопровождаться усилением требований к безопасности данных.

Заключение

Apache Spark продолжает укреплять позиции как универсальный фреймворк для обработки больших данных и построения аналитических платформ в бизнесе. За последние годы Spark активно проникает в новые отрасли, такие как здравоохранение и энергетика. Его интеграция с ИИ, облачными платформами и потоковыми сервисами делает его востребованным как среди технологических гигантов, так и стартапов.

При сохранении текуших тенденций востребованность Spark в ближайшие пять лет вырастет ещё сильнее. Он станет ядром гибридных архитектур, обеспечит сквозную аналитику от edge до облака, интеграцию с AI/ML, поддержку Data Lakehouse и доступность для компаний любого масштаба. В России позиции Spark усиливает тренд на локализацию данных и развитие отечественных продуктов на базе проверенных решений с открытым исходным кодом. Это способствует интенсификации внедрения Spark в тех отраслях экономики, которые связаны с обработкой больших данных.

В ближайшие годы мы прогнозируем рост использования Spark в облачных экосистемах, особенно связанных с ИИ, но конкуренция с более быстрыми альтернативами для потоковой обработки может ограничить его применение в некоторых сценариях, где требуется режим реального времени. С другой стороны, благодаря Comet производительность Spark в ряде задач может существенно возрасти и приблизится к уровню real-time обработки.

Хабы: