如何使用Spark从保存的文件加载数据

wor*_*tor 5 apache-spark rdd

Spark提供的方法saveAsTextFile可以RDD[T]轻松存储到磁盘或hdfs中.

T是任意可序列化的类.

我想扭转操作.我想知道是否有一个loadFromTextFile可以轻松加载文件RDD[T]

让我说清楚:

class A extends Serializable {
...
}

val path:String = "hdfs..."
val d1:RDD[A] = create_A

d1.saveAsTextFile(path)

val d2:RDD[A] = a_load_function(path) // this is the function I want

//d2 should be the same as d1
Run Code Online (Sandbox Code Playgroud)

yjs*_*hen 10

尝试用来d1.saveAsObjectFile(path)存储和val d2 = sc.objectFile[A](path)加载.

我认为你不能saveAsTextFile把它读出来,因为RDD[A]没有转变RDD[String]