小编Sou*_*tra的帖子

Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群，当我运行 Spark 流应用程序时，出现以下错误：

Exception in thread "main" org.apache.spark.SparkException: Checkpoint RDD ReliableCheckpointRDD[11] at print at StatefulNetworkWordCount.scala:78(1) has different number of partitions from original RDD MapPartitionsRDD[10] at updateStateByKey at StatefulNetworkWordCount.scala:76(2)
    at org.apache.spark.rdd.ReliableRDDCheckpointData.doCheckpoint(ReliableRDDCheckpointData.scala:73)
    at org.apache.spark.rdd.RDDCheckpointData.checkpoint(RDDCheckpointData.scala:74)

Run Code Online (Sandbox Code Playgroud)

如何在不是 HDFS/Cassandra/任何其他数据存储的文件系统上提供检查点目录？

我想到了两种可能的解决方案，但我不知道如何编写它们：

有一个远程目录，该目录对于两个工作人员来说都是本地的
为两个工作人员指定远程目录

有什么建议？

apache-spark spark-streaming apache-spark-ml

Sou*_*tra

2015 10-21

5
推荐指数

1
解决办法

2778
查看次数

如何将Scala RDD转换为Map

我有一个RDD(String数组)org.apache.spark.rdd.RDD[String] = MappedRDD[18] 并将其转换为具有唯一ID的地图.我做了' val vertexMAp = vertices.zipWithUniqueId'但这给了我另一种类型的RDD,'org.apache.spark.rdd.RDD[(String, Long)]'但我想要一个' Map[String, Long]'.我该如何转换我的' org.apache.spark.rdd.RDD[(String, Long)] to Map[String, Long]'？

谢谢

scala apache-spark

Sou*_*tra

2017 06-15

4
推荐指数

2
解决办法

2万
查看次数