Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet / Комментарии / Хабр

HuanSebastyan 8 сен 2022 в 02:08

У DataFrame, DataSet, созданного из файла на HDFS, будет столько партиций, сколько блоков на HDFS имеет исходный файл. Либо в зависимости от параметра spark.sql.files.maxPartitionBytes which defaults to 128MB

А если файл маленький(меньше 128MB) и занимает одну партицию - то сколько будет партиций у DataFrame, DataSet ?

Из описанной выше логики получается что будет одна партиция, правильно?

А то я помниться где-то читал что их будет 2.