Pull to refresh
8
Андрей Илюхин@rufous86

User

4
Subscribers
Send message

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Reading time15 min
Reach and readers3.2K

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

Читать далее

Heatmap на интерактивной карте с помощью folium

Reading time4 min
Reach and readers8.1K


Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.


Действовать будем в 3 этапа:


  1. Парсинг вакансий с hh API
  2. Актуализация геолокаций каждой вакансии с точностью до населенного пункта
  3. Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium
Читать дальше →

Pyspark. Анализ больших данных, когда Pandas не достаточно

Reading time4 min
Reach and readers73K

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Читать далее

Information

Rating
Does not participate
Registered
Activity

Specialization

Ученый по данным, Инженер по данным
Младший
Машинное обучение
Большие данные
Python
SQL
Deep Learning
NumPy
Нейронные сети
Обработка естественного языка