我想从hdfs位置读取一堆文本文件,并使用spark在迭代中对其执行映射.
JavaRDD<String> records = ctx.textFile(args[1], 1); 能够一次只读取一个文件.
我想读取多个文件并将它们作为单个RDD处理.怎么样?
我试图使用文件中的Apache spark过滤掉特定文件的日期到RDD功能sc.textFile().
我试图做以下事情:
sc.textFile("/user/Orders/201507(2[7-9]{1}|3[0-1]{1})*")
这应符合以下要求:
/user/Orders/201507270010033.gz
/user/Orders/201507300060052.gz
知道怎么做到这一点?