Статьи / Профиль vladislav

@vladislav_shevchenko

Пользователь

Профиль Статьи 4Посты Новости Комментарии 8

vladislav_shevchenko 31 окт 2024 в 09:55

Выбираю Open Source БД для себя

Простой

5 мин

7.5K

Блог компании Альфа-БанкАдминистрирование баз данных*PostgreSQL*Хранилища данных*Open source*

Обзор

Задача такая: искал Open Source БД для своего пет-проекта. Решил посмотреть в интернете новые решения в рамках БД. После чтения статей и отбора из 6-7 БД остались три (3), которые понравились лично мне. Больше ничего путного не нашел.

Почему именно эти? Во-первых, они Open Source, а во-вторых, у них есть ответы на два главных моих вопроса «Для чего это нужно?» и «Работает ли из коробки?».

Давайте покажу на примерах.

+37

vladislav_shevchenko 18 июл 2024 в 19:31

Руководство по Apache Spark не для начинающих: оптимизация

Средний

15 мин

7.3K

Блог компании Альфа-БанкBig Data*Hadoop*Data Engineering*

Туториал

Руководство по Apache Spark не для начинающих.

В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.

В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.

+22

vladislav_shevchenko 17 апр 2024 в 16:57

SPARK для «малышей»

Простой

14 мин

15K

Блог компании Альфа-БанкHadoop*Data Engineering*

Туториал

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

+26

vladislav_shevchenko 7 ноя 2023 в 13:53

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Средний

14 мин

16K

Блог компании Альфа-БанкApache*Big Data*DevOps*Data Engineering*

Туториал

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

+19