blu*_*sky 6 scala apache-spark
要将文件读入内存,我使用:
val lines = sc.textFile("myLogFile*")
Run Code Online (Sandbox Code Playgroud)
其类型:
org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12
Run Code Online (Sandbox Code Playgroud)
阅读Scala文档:http: //spark.apache.org/docs/0.9.1/scala-programming-guide.html#parallelized-collections"通过在现有Scala集合上调用SparkContext的parallelize方法来创建并行化集合(a Seq对象)."
这似乎不适用于RDD?可以在RDD上进行并行处理吗?我是否需要将RDD转换为Seq对象?
| 归档时间: |
|
| 查看次数: |
7924 次 |
| 最近记录: |