从S3存储桶加载文件时Spark会创建多少个分区?

Suh*_*uli 7 hadoop amazon-s3 bigdata apache-spark rdd

如果文件默认从HDFS加载,spark会为每个块创建一个分区.但是,当从S3存储桶加载文件时,spark如何决定分区?

小智 2

参见 的代码org.apache.hadoop.mapred.FileInputFormat.getSplits()

块大小取决于 S3 文件系统实现(请参阅 参考资料FileStatus.getBlockSize())。例如S3AFileStatus,只需将其设置为等于0(然后FileInputFormat.computeSplitSize()发挥作用)。

另外,如果您的 InputFormat 不可拆分,您就不会得到拆分:)

  • 请原谅我对此缺乏了解,但是我如何检查我的集群的这些值? (3认同)