Search
Write a publication
Pull to refresh
8
0
Андрей Илюхин @rufous86

User

Send message

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Reading time15 min
Views2.7K

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

Читать далее

Heatmap на интерактивной карте с помощью folium

Reading time4 min
Views6.1K


Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.


Действовать будем в 3 этапа:


  1. Парсинг вакансий с hh API
  2. Актуализация геолокаций каждой вакансии с точностью до населенного пункта
  3. Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium
Читать дальше →

Pyspark. Анализ больших данных, когда Pandas не достаточно

Reading time4 min
Views52K

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Читать далее

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Scientist, Data Engineer
Junior
Machine learning
Big data
Python
SQL
Deep Learning
NumPy
Neural networks
Natural language processing