java spark并行化方法参数

Question

java spark并行化方法参数

我正在用 java 编写一个测试程序，并希望并行化一个列表对象。

SparkSession spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("JavaWordCount")
      .getOrCreate();

System.out.println("hello");
List<String> l = new ArrayList<>(5);
l.add("view.txt");
spark.sparkContext().parallelize(l,1,"test");

Run Code Online (Sandbox Code Playgroud)

SparkContext 类型中的 parallelize(Seq, int, ClassTag) 方法不适用于参数 (List, int, String)

我不确定第三个参数是什么 - class Tag

Answer 1

小智 5

通常，在使用 Java 时，您应该更喜欢JavaSparkContext方法：

import org.apache.spark.api.java.JavaSparkContext;

JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

JavaRDD<String> rdd = jsc.parallelize(l, 1);

Run Code Online (Sandbox Code Playgroud)

SparkContext 主要用于 Scala 使用。

归档时间：	8 年，3 月前
查看次数：	1063 次
最近记录：	8 年，3 月前