我有两个RDDS:
rdd1 [String,String,String]: Name, Address, Zipcode
rdd2 [String,String,String]: Name, Address, Landmark
Run Code Online (Sandbox Code Playgroud)
我正在尝试使用该函数加入这两个RDD:rdd1.join(rdd2)
但是我收到一个错误:
error: value fullOuterJoin is not a member of org.apache.spark.rdd.RDD[String]
连接应该加入RDD [String],输出RDD应该是这样的:
rddOutput : Name,Address,Zipcode,Landmark
Run Code Online (Sandbox Code Playgroud)
我想最终将这些文件保存为JSON文件.
有人能帮我一样吗?
我有一个只有一栏的CSV文件,行定义如下:
123 || food || fruit
123 || food || fruit || orange
123 || food || fruit || apple
Run Code Online (Sandbox Code Playgroud)
我想用一个单列和不同的行值创建一个csv文件:
orange
apple
Run Code Online (Sandbox Code Playgroud)
我尝试使用以下代码:
val data = sc.textFile("fruits.csv")
val rows = data.map(_.split("||"))
val rddnew = rows.flatMap( arr => {
val text = arr(0)
val words = text.split("||")
words.map( word => ( word, text ) )
} )
Run Code Online (Sandbox Code Playgroud)
但是这段代码并没有给我想要的正确结果。
有人可以帮我吗?