sha*_*uga 1 scala apache-spark
我试图使用join从基于另一个文件(列表)的值过滤文件(事实)中的记录.
case class CDR(no:Int,nm:String)
val facts = sc.textFile("/temp_scv/a.csv").map( (line) => { val cols = line.split(",");new CDR(cols(0).toInt,cols(1)); }).keyBy( (cdr:CDR) => cdr.no)
val list = sc.textFile("/temp_scv/b.csv").keyBy( (no) => no.toInt)
val filtered = facts.join(list)
Run Code Online (Sandbox Code Playgroud)
当我将其打包为jar并Hadoop cluster使用spark-submit 执行此操作时,它会失败并出现异常
ClassNotFoundException: org.apache.spark.rdd.RDD$
Run Code Online (Sandbox Code Playgroud)
但是当我将它粘贴到spark-shell上时,相同的代码运行正常Hadoop cluster.
| 归档时间: |
|
| 查看次数: |
1241 次 |
| 最近记录: |