分区数如何影响`wholeTextFiles`和`textFiles`？

Question

在火花中,我理解如何使用wholeTextFiles和textFiles,但我不知道何时使用.这是我目前所知道的:

我会在默认情况下,想wholeTextFiles和textFiles按文件内容的分区,并通过线,分别.但是,它们都允许您更改参数minPartitions.

那么,更改分区如何影响这些处理的方式呢？

例如,假设我有一个包含100行的非常大的文件.处理它wholeTextFiles与100个parti 之间的区别,并textFile使用默认的parition 100将其处理为(逐行分区).

这些有什么区别？

Answer 1

供参考,wholeTextFiles用于WholeTextFileInputFormat扩展CombineFileInputFormat.

几个笔记wholeTextFiles.

如果我在目录中有两个小文件,则两个文件可能最终都在一个分区中.如果我设置minPartitions=2,那么我可能会返回两个分区.

现在,如果我要设置minPartitions=3,我仍将返回两个分区,因为合同wholeTextFiles是RDD中的每个记录都包含整个文件.