ru_vds Mar 4 2019 at 09:10

Руководство по использованию pandas для анализа больших наборов данных

16 min

169K

RUVDS.com corporate blogBig Data * System Analysis and Design * Data storage *

Tutorial

Translation

+26

Comments 7

sshikov Mar 4 2019 at 12:39

>В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт),
практически, до сотен терабайт…

>для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение.
Это не вполне правда. Дешево все равно не будет, диски и память стоят денег, но ничего экстра дорогого не нужно.

>И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных.
Вообще говоря, очистка это просто не совсем задача Spark, а конкретного приложения. Хотите pandas? А что вам мешает pyspark?

Groramar Mar 4 2019 at 12:52

Спасибо за статью. Напомнило принципы нормализации баз данных.

UFO landed and left these words here

Andronas Mar 4 2019 at 20:11

Скажите, какая версия Pandas использовалась?
Я проверил загрузку датасета на версии 0.24.1 и получил:
dtypes: float64(77), int64(6), object(78)
memory usage: 545.2 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 0.00 MB
Average memory usage for object columns: 5.52 MB

На версии Pandas 0.22.0:
dtypes: float64(77), int64(6), object(78)
memory usage: 861.6 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 1.12 MB
Average memory usage for object columns: 9.53 MB

Кол-во записей одинаковое, 171907 entries

Stas911 Mar 6 2019 at 02:21

Все-таки у Spark и Pandas совсем разные ниши и с теми данными, которые Spark обрабатывает, на десктопе с Pandas совсем нечего делать. Опять же инструменты с поддержкой sql для аналитиков часто более востребованы. Что не отменяет того, что это прекрасный инструмент для ad-hoc аналитики в умелых руках.

Vicking Mar 6 2019 at 09:52

Статья интересная и полезная, но увы, 15-гиговую csv как ни оптимизировал, загрузить за раз не удалось, только чанками обрабатывать ((

Jay_Di_Human Jan 2 2020 at 14:34

Посмотрите Vaex dataframe library.