rufous8629 дек 2022 в 12:27

Pyspark. Анализ больших данных, когда Pandas не достаточно

4 мин

73K

Big Data * Hadoop * Python *

Из песочницы

Комментарии 4

Tarzan3668 30 дек 2022 в 10:38

Спасибо за пример, Андрей, нужно будет изучить эту библиотеку!

fingoldo 31 дек 2022 в 11:52

df.dropna(inplace = True) # :))

rufous86 31 дек 2022 в 12:33

К сожалению, это не поможет. Только что проверил - out of memory, все равно. Да и смысл статьи немного в другом. Мы могли вылезти за пределы памяти ещё на этапе чтения данных. Тут вопрос, что делать - масштабировать железо или использовать другие технологии

teran45 5 янв 2023 в 19:37

Простите, но Вам не кажется что Вы пытается сравнить два совершенно разных инструмента. Это всё равно что сравнить лопату для уборки снега и большую снегоуборочную машину. Конечно оба варианта дают результаты, но принцип работы разный. Спарк нужен для работы на кластере с распаралленнимы вычислениями это его основная фишка. Конечно можно работать со спарком на одной машине и это даже даст свой результат, но все таки во дворе у себя лучше убрать снег лопатой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий