Статьи / Закладки / Профиль vladislav

@vladislav_shevchenko

Пользователь

Профиль Публикации 3Комментарии 2Закладки 3

vladislav_shevchenko 7 ноя 2023 в 13:53

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Средний

14 мин

12K

Блог компании Альфа-БанкApache*Big Data*DevOps*Data Engineering*

Туториал

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

+19

vladislav_shevchenko 18 июл в 19:31

Руководство по Apache Spark не для начинающих: оптимизация

Средний

15 мин

4.9K

Блог компании Альфа-БанкBig Data*Hadoop*Data Engineering*

Туториал

Руководство по Apache Spark не для начинающих.

В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.

В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.

+22

vladislav_shevchenko 17 апр в 16:57

SPARK для «малышей»

Простой

14 мин

11K

Блог компании Альфа-БанкHadoop*Data Engineering*

Туториал

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

+26