在spark中创建一个没有文件的JavaRDD

use*_*675 1 apache-spark apache-spark-ml apache-spark-mllib

我对 spark 完全陌生,我想以编程方式从标记点创建 JavaRDD,而无需从文件中读取输入。假设我创建了几个 Labeledpoints,如下所示,

 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 5.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 7.0, 3.0));
Run Code Online (Sandbox Code Playgroud)

然后我想使用这些向量创建一个 JavaRDD。我怎样才能做到这一点。

Mil*_*avi 5

检查Apache spark 文档的这一部分。您可以使用 parallelize 函数来创建 rdd。

List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);
Run Code Online (Sandbox Code Playgroud)

  • 您必须有权访问项目中的 SparkContext。可能会通过一些静态变量暴露出来。否则,您将无法使用 spark 的任何功能。 (5认同)