小编Jai*_*ime的帖子

如何在Spark Scala shell中列出HDFS位置中的所有csv文件?

这样做的目的是为了在HDFS中的第二个位置操作和保存每个数据文件的副本.我会用的

RddName.coalesce(1).saveAsTextFile(pathName)
Run Code Online (Sandbox Code Playgroud)

将结果保存到HDFS.

这就是为什么我想单独写每个文件,即使我确信性能不会那么高效.但是,我还没有确定如何将CSV文件路径列表存储到字符串数组中,然后使用单独的RDD循环遍历每个字符串.

让我们使用以下匿名示例作为HDFS源位置:

/data/email/click/date=2015-01-01/sent_20150101.csv
/data/email/click/date=2015-01-02/sent_20150102.csv
/data/email/click/date=2015-01-03/sent_20150103.csv
Run Code Online (Sandbox Code Playgroud)

我知道如何使用Hadoop FS Shell列出文件路径:

HDFS DFS -ls /data/email/click/*/*.csv
Run Code Online (Sandbox Code Playgroud)

我知道如何为所有数据创建一个RDD:

val sentRdd = sc.textFile( "/data/email/click/*/*.csv" )
Run Code Online (Sandbox Code Playgroud)

hadoop scala hdfs apache-spark

7
推荐指数
1
解决办法
4358
查看次数

标签 统计

apache-spark ×1

hadoop ×1

hdfs ×1

scala ×1