Как стать автором
Обновить

Комментарии 1

У DataFrame, DataSet, созданного из файла на HDFS, будет столько партиций, сколько блоков на HDFS имеет исходный файл. Либо в зависимости от параметра spark.sql.files.maxPartitionBytes which defaults to 128MB


А если файл маленький(меньше 128MB) и занимает одну партицию - то сколько будет партиций у DataFrame, DataSet ? 

Из описанной выше логики получается что будет одна партиция, правильно? 

А то я помниться где-то читал что их будет 2. 

Зарегистрируйтесь на Хабре, чтобы оставить комментарий