小编Nee*_*rem的帖子

据我所知,在Hadoop中,大输入文件分成小文件,并由map函数在不同节点中处理.我也知道我们可以自定义InputSplits.我想知道的是,如果可以进行以下类型的自定义InputSplit:

我有一个大的输入文件进入Hadoop,我想要一个文件的子集,即文件中的一组行与每个输入拆分一起.我的意思是大文件的所有数据块都应包含这些行集,而不管文件的分割方式如何.

为了使我的问题更清楚,比如我们需要将输入文件的一部分(比方说A)与文件内容的其余部分进行比较,在这种情况下,所有InputSplit要转到map函数的A部分都需要将此部分用于比较.请指导我这个.

5
推荐指数

1
解决办法

2042
查看次数

小编Nee_rem的帖子