我正在用 java 编写一个测试程序,并希望并行化一个列表对象。
SparkSession spark = SparkSession
.builder()
.master("local[*]")
.appName("JavaWordCount")
.getOrCreate();
System.out.println("hello");
List<String> l = new ArrayList<>(5);
l.add("view.txt");
spark.sparkContext().parallelize(l,1,"test");
Run Code Online (Sandbox Code Playgroud)
SparkContext 类型中的 parallelize(Seq, int, ClassTag) 方法不适用于参数 (List, int, String)
我不确定第三个参数是什么 - class Tag
小智 5
通常,在使用 Java 时,您应该更喜欢JavaSparkContext方法:
import org.apache.spark.api.java.JavaSparkContext;
JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());
JavaRDD<String> rdd = jsc.parallelize(l, 1);
Run Code Online (Sandbox Code Playgroud)
SparkContext 主要用于 Scala 使用。
| 归档时间: |
|
| 查看次数: |
1063 次 |
| 最近记录: |