将Scala Iterable [元组]转换为RDD

men*_*h84 10 scala apache-spark rdd

我有一个元组列表,(String,String,Int,Double)我想转换为Spark RDD.

一般来说,如何将Scala Iterable [(a1,a2,a3,...,an)]转换为Spark RDD?

Gam*_*ows 10

有几种方法可以做到这一点,但最直接的方法就是使用Spark Context:

import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._

sc.parallelize(YourIterable.toList)
Run Code Online (Sandbox Code Playgroud)

我认为sc.Parallelize需要转换为List,但它会保留你的结构,因此你仍然会得到一个RDD [String,String,Int,Double]

  • sc.parallelize(MyIterable.toSeq)也有效 (3认同)