在Spark API中,makeRDD函数和parallelize函数有什么区别?

Lee*_*nSu 14 scala apache-spark rdd

在make spark app期间,我有一个问题.在Spark API中,makeRDD函数和parallelize函数有什么区别?

zer*_*323 17

没有任何区别.引用makeRDD doctring:

这种方法与之相同parallelize.

如果您看一下它的实现,它只需调用parallelize:

def makeRDD[T: ClassTag](
    seq: Seq[T],
    numSlices: Int = defaultParallelism): RDD[T] = withScope {
  parallelize(seq, numSlices)
}
Run Code Online (Sandbox Code Playgroud)

在一天结束时,这是一个品味问题.需要考虑的一件事是,makeRDD似乎特定于Scala API.PySpark和内部SparkR API仅提供parallelize.

注意:有第二种实现makeRDD允许您设置位置首选项,但是给定不同的签名,它不可互换parallelize.