有一些方法可以将数据集转换为JavaRDD.
Dataset<Row> dataFrame;
JavaRDD<String> data = dataFrame.toJavaRDD();
Run Code Online (Sandbox Code Playgroud)
有没有其他方法可以将数据集转换为javaPairRDD<Long, Vector>?
我在 Java 7 中使用 Spark 1.6
我有一对RDD:
JavaPairRDD<String, String> filesRDD = sc.wholeTextFiles(args[0]);
Run Code Online (Sandbox Code Playgroud)
我想将其转换DataFrame为模式。
看来首先我必须将pairRDD转换为RowRDD。
那么如何从 PairRDD 创建 RowRdd 呢?