Комментарии 1
У DataFrame, DataSet, созданного из файла на HDFS, будет столько партиций, сколько блоков на HDFS имеет исходный файл. Либо в зависимости от параметра spark.sql.files.maxPartitionBytes which defaults to 128MB
А если файл маленький(меньше 128MB) и занимает одну партицию - то сколько будет партиций у DataFrame, DataSet ?
Из описанной выше логики получается что будет одна партиция, правильно?
А то я помниться где-то читал что их будет 2.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet