Статьи / Профиль rufous86 / Хабр

Андрей Илюхин@rufous86

Пользователь

Подписчики

ПрофильСтатьи3ПостыНовостиКомментарии1

rufous86 12 янв 2023 в 19:27

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

15 мин

3.2K

Python * Big Data * Hadoop * Data Engineering *

Туториал

Перевод

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

rufous86 4 янв 2023 в 13:19

Heatmap на интерактивной карте с помощью folium

4 мин

8.1K

Визуализация данных * Python * Data Mining * Data Engineering * Проектирование API *

Туториал

Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.

Действовать будем в 3 этапа:

Парсинг вакансий с hh API
Актуализация геолокаций каждой вакансии с точностью до населенного пункта
Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium

Читать дальше →

rufous86 29 дек 2022 в 12:27

Pyspark. Анализ больших данных, когда Pandas не достаточно

4 мин

73K

Big Data * Hadoop * Python *

Из песочницы

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Heatmap на интерактивной карте с помощью folium

Pyspark. Анализ больших данных, когда Pandas не достаточно

Информация

Специализация