java spark并行化方法参数

use*_*619 1 java apache-spark

我正在用 java 编写一个测试程序,并希望并行化一个列表对象。

SparkSession spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("JavaWordCount")
      .getOrCreate();

System.out.println("hello");
List<String> l = new ArrayList<>(5);
l.add("view.txt");
spark.sparkContext().parallelize(l,1,"test");
Run Code Online (Sandbox Code Playgroud)

SparkContext 类型中的 parallelize(Seq, int, ClassTag) 方法不适用于参数 (List, int, String)

我不确定第三个参数是什么 - class Tag

小智 5

通常,在使用 Java 时,您应该更喜欢JavaSparkContext方法:

import org.apache.spark.api.java.JavaSparkContext;

JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

JavaRDD<String> rdd = jsc.parallelize(l, 1);
Run Code Online (Sandbox Code Playgroud)

SparkContext 主要用于 Scala 使用。