如何将JavaPairRDD转换为HashMap

Ami*_*jan 9 apache-spark rdd

我有一个包含键值对的JavaPairDStream.我需要将它转换为HashMap.我已经尝试通过调用"collectAsMap()"函数和它的工作方式对普通的JavaPairRDD做同样的事情但是当我试图在DStream上做同样的事情时,它失败了.

我试图通过使用"foreachRDD"函数将"JavaPairDStream"转换为"JavaPairRDD"来实现相同的目标,之后我在JavaPairRDD上使用"collectAsMap()"函数.

Map<String,String> value= new HashMap<String,String>();
            value=line.collectAsMap();

//Here "line" is a "JavaPairRDD<String,String>".
Run Code Online (Sandbox Code Playgroud)

它不会给出任何编译错误但是当我运行程序时它会失败并抛出错误,如下所示.

java.lang.ClassCastException: [Ljava.lang.Object; cannot be cast to [Lscala.Tuple2;
    at org.apache.spark.rdd.PairRDDFunctions.collectAsMap(PairRDDFunctions.scala:447)
    at org.apache.spark.api.java.JavaPairRDD.collectAsMap(JavaPairRDD.scala:464)
    at attempt1.CSV_Spark$3.call(CSV_Spark.java:109)
    at attempt1.CSV_Spark$3.call(CSV_Spark.java:1)
Run Code Online (Sandbox Code Playgroud)

我不确定我的方法是否正确.普通的"JavaPairRDD"与"foreachRDD"函数创建的"JavaPairRDD"之间有什么区别吗?为什么相同的方法适用于普通的"JavaPairRDD",但是当我将它应用于通过在JavaPairDStream上应用"foreachRDD"函数创建的"JavaPairRDD"时失败.如果我在任何地方出错,请告诉我.如果还有其他方式,请在此处发布.谢谢.

Lak*_*ati 2

在编译时,接受向下转换,因为MapHashMap都处于同一继承中。虽然我们没有得到任何编译时错误,但我们会在运行时得到 ClassCastException。为了避免这个问题,你可以尝试这样做:

代码:

JavaPairRDD<K, V> javaRDDPair  = rddInstance.mapToPair(new PairFunction<T, K, V>() {
   @Override
    public Tuple2<K, V> call(final T value) {
    // statements 
    // operations on value
    return new Tuple2<K, V>(KTypeValue, VTypeValue);
    }
    });

    Map<K,V> map =  javaRDDPair.collectAsMap();
    HashMap<K,V> hmap = new HashMap<K,V>(map);
Run Code Online (Sandbox Code Playgroud)

注意:rddInstance是JavaRDD类型的对象。

假设我们有一个JavaRDD ,其中保存T 类型值。在对其进行转换后,我们创建了JavaPairRDD,其中包含 < K,V >。现在的要求是将 JavaPairRDD 转换为 HashMap 对象,以便在应用程序中进行进一步计算。使用collectAsMap方法并将其结果分配给Map对象本身。之后,您可以通过传递Map实例来创建HashMap