Suh*_*uli 7 hadoop amazon-s3 bigdata apache-spark rdd
如果文件默认从HDFS加载,spark会为每个块创建一个分区.但是,当从S3存储桶加载文件时,spark如何决定分区?
小智 2
参见 的代码org.apache.hadoop.mapred.FileInputFormat.getSplits()
。
块大小取决于 S3 文件系统实现(请参阅 参考资料FileStatus.getBlockSize()
)。例如S3AFileStatus
,只需将其设置为等于0
(然后FileInputFormat.computeSplitSize()
发挥作用)。
另外,如果您的 InputFormat 不可拆分,您就不会得到拆分:)