Comments 7
>В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт),
практически, до сотен терабайт…
>для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение.
Это не вполне правда. Дешево все равно не будет, диски и память стоят денег, но ничего экстра дорогого не нужно.
>И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных.
Вообще говоря, очистка это просто не совсем задача Spark, а конкретного приложения. Хотите pandas? А что вам мешает pyspark?
практически, до сотен терабайт…
>для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение.
Это не вполне правда. Дешево все равно не будет, диски и память стоят денег, но ничего экстра дорогого не нужно.
>И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных.
Вообще говоря, очистка это просто не совсем задача Spark, а конкретного приложения. Хотите pandas? А что вам мешает pyspark?
0
Спасибо за статью. Напомнило принципы нормализации баз данных.
0
UFO just landed and posted this here
Скажите, какая версия Pandas использовалась?
Я проверил загрузку датасета на версии 0.24.1 и получил:
dtypes: float64(77), int64(6), object(78)
memory usage: 545.2 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 0.00 MB
Average memory usage for object columns: 5.52 MB
На версии Pandas 0.22.0:
dtypes: float64(77), int64(6), object(78)
memory usage: 861.6 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 1.12 MB
Average memory usage for object columns: 9.53 MB
Кол-во записей одинаковое, 171907 entries
Я проверил загрузку датасета на версии 0.24.1 и получил:
dtypes: float64(77), int64(6), object(78)
memory usage: 545.2 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 0.00 MB
Average memory usage for object columns: 5.52 MB
На версии Pandas 0.22.0:
dtypes: float64(77), int64(6), object(78)
memory usage: 861.6 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 1.12 MB
Average memory usage for object columns: 9.53 MB
Кол-во записей одинаковое, 171907 entries
0
Все-таки у Spark и Pandas совсем разные ниши и с теми данными, которые Spark обрабатывает, на десктопе с Pandas совсем нечего делать. Опять же инструменты с поддержкой sql для аналитиков часто более востребованы. Что не отменяет того, что это прекрасный инструмент для ad-hoc аналитики в умелых руках.
0
Статья интересная и полезная, но увы, 15-гиговую csv как ни оптимизировал, загрузить за раз не удалось, только чанками обрабатывать ((
0
Sign up to leave a comment.
Руководство по использованию pandas для анализа больших наборов данных