Обновить
8
0
Андрей Илюхин@rufous86

Пользователь

Отправить сообщение

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Время на прочтение15 мин
Охват и читатели3.1K

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

Читать далее

Heatmap на интерактивной карте с помощью folium

Время на прочтение4 мин
Охват и читатели7.8K


Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.


Действовать будем в 3 этапа:


  1. Парсинг вакансий с hh API
  2. Актуализация геолокаций каждой вакансии с точностью до населенного пункта
  3. Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium
Читать дальше →

Pyspark. Анализ больших данных, когда Pandas не достаточно

Время на прочтение4 мин
Охват и читатели71K

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Ученый по данным, Инженер по данным
Младший
Машинное обучение
Большие данные
Python
SQL
Deep Learning
NumPy
Нейронные сети
Обработка естественного языка