从列表中创建JavaRDD的常用方法是使用 JavaSparkContext.parallelize(List)
但是,Spark 2.0 SparkSession用作入口点,我不知道如何从List创建JavaRDD
小智 5
我有同样的问题.到目前为止我做了什么:
List<String> list = Arrays.asList("Any", "List", "with", "Strings");
Dataset<String> listDS = sparkSession.createDataset(list, Encoders.STRING());
JavaRDD<String> javaRDDString = listDS.toJavaRDD();
Run Code Online (Sandbox Code Playgroud)
我这样做的一个原因是,例如我想使用flatMap哪种方法可以正常使用JavaRDD<String>但不能正常使用Dataset<String>
希望这可以帮助.