Articles / Profile of rufous86 / Habr

Андрей Илюхин@rufous86

User

Subscribers

ProfileArticles3PostsNewsComments1

rufous86 Jan 12 2023 at 19:27

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

15 min

3.2K

Python * Big Data * Hadoop * Data Engineering *

Tutorial

Translation

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

rufous86 Jan 4 2023 at 13:19

Heatmap на интерактивной карте с помощью folium

4 min

8.1K

Data visualization * Python * Data Mining * Data Engineering * API *

Tutorial

Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.

Действовать будем в 3 этапа:

Парсинг вакансий с hh API
Актуализация геолокаций каждой вакансии с точностью до населенного пункта
Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium

Читать дальше →

rufous86 Dec 29 2022 at 12:27

Pyspark. Анализ больших данных, когда Pandas не достаточно

4 min

73K

Big Data * Hadoop * Python *

From sandbox

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Heatmap на интерактивной карте с помощью folium

Pyspark. Анализ больших данных, когда Pandas не достаточно

Information

Specialization