小编use*_*466的帖子

加入两个RDD [String] -Spark Scala

我有两个RDDS:

rdd1 [String,String,String]: Name, Address, Zipcode
rdd2 [String,String,String]: Name, Address, Landmark 
Run Code Online (Sandbox Code Playgroud)

我正在尝试使用该函数加入这两个RDD:rdd1.join(rdd2)
但是我收到一个错误:
error: value fullOuterJoin is not a member of org.apache.spark.rdd.RDD[String]

连接应该加入RDD [String],输出RDD应该是这样的:

rddOutput : Name,Address,Zipcode,Landmark
Run Code Online (Sandbox Code Playgroud)

我想最终将这些文件保存为JSON文件.

有人能帮我一样吗?

string scala join apache-spark rdd

2
推荐指数
1
解决办法
9224
查看次数

将管道分隔文件转换为Spark DataFrame转换为CSV文件

我有一个只有一栏的CSV文件,行定义如下:

123 || food || fruit
123 || food || fruit || orange 
123 || food || fruit || apple
Run Code Online (Sandbox Code Playgroud)

我想用一个单列和不同的行值创建一个csv文件:

orange
apple
Run Code Online (Sandbox Code Playgroud)

我尝试使用以下代码:

 val data = sc.textFile("fruits.csv")
 val rows = data.map(_.split("||"))
 val rddnew = rows.flatMap( arr => {
 val text = arr(0) 
 val words = text.split("||")
 words.map( word => ( word, text ) )
 } )
Run Code Online (Sandbox Code Playgroud)

但是这段代码并没有给我想要的正确结果。
有人可以帮我吗?

csv scala apache-spark spark-streaming rdd

1
推荐指数
1
解决办法
6031
查看次数

标签 统计

apache-spark ×2

rdd ×2

scala ×2

csv ×1

join ×1

spark-streaming ×1

string ×1