相关疑难解决方法(0)

如何将多个文本文件读入单个RDD?

我想从hdfs位置读取一堆文本文件,并使用spark在迭代中对其执行映射.

JavaRDD<String> records = ctx.textFile(args[1], 1); 能够一次只读取一个文件.

我想读取多个文件并将它们作为单个RDD处理.怎么样?

apache-spark

171
推荐指数
4
解决办法
14万
查看次数

如何使用正则表达式在sc.textFile中包含/排除一些输入文件?

我试图使用文件中的Apache spark过滤掉特定文件的日期到RDD功能sc.textFile().

我试图做以下事情:

sc.textFile("/user/Orders/201507(2[7-9]{1}|3[0-1]{1})*")
Run Code Online (Sandbox Code Playgroud)

这应符合以下要求:

/user/Orders/201507270010033.gz
/user/Orders/201507300060052.gz
Run Code Online (Sandbox Code Playgroud)

知道怎么做到这一点?

scala apache-spark

20
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×2

scala ×1