相关疑难解决方法(0)

我想从hdfs位置读取一堆文本文件,并使用spark在迭代中对其执行映射.

JavaRDD<String> records = ctx.textFile(args[1], 1); 能够一次只读取一个文件.

我想读取多个文件并将它们作为单个RDD处理.怎么样？

171
推荐指数

4
解决办法

14万
查看次数

我试图使用文件中的Apache spark过滤掉特定文件的日期到RDD功能sc.textFile().

我试图做以下事情:

sc.textFile("/user/Orders/201507(2[7-9]{1}|3[0-1]{1})*")

这应符合以下要求:

/user/Orders/201507270010033.gz
/user/Orders/201507300060052.gz

知道怎么做到这一点？

20
推荐指数

1
解决办法

2万
查看次数