从S3存储桶加载文件时Spark会创建多少个分区？

Question

如果文件默认从HDFS加载,spark会为每个块创建一个分区.但是,当从S3存储桶加载文件时,spark如何决定分区？

Answer 1

参见的代码org.apache.hadoop.mapred.FileInputFormat.getSplits()。

块大小取决于 S3 文件系统实现（请参阅参考资料FileStatus.getBlockSize()）。例如S3AFileStatus，只需将其设置为等于0（然后FileInputFormat.computeSplitSize()发挥作用）。

另外，如果您的 InputFormat 不可拆分，您就不会得到拆分:)