在 Spark-Scala 中将 Dataset[Row] 转换为 RDD[Array[String]] 的最佳方法？

Question

在 Spark-Scala 中将 Dataset[Row] 转换为 RDD[Array[String]] 的最佳方法？

som*_*ser 3 scala apache-spark rdd apache-spark-sql apache-spark-dataset

我正在通过读取 csv 文件创建一个 spark 数据集。此外，我需要将此 Dataset[Row] 转换为 RDD[Array[String]] 以将其传递给 FpGrowth(Spark MLLIB)。

val df: DataFrame = spark.read.format("csv").option("header", "true").load("/path/to/csv")
val ds: Dataset[Row] = df.groupBy("user").agg(collect_set("values"))

Run Code Online (Sandbox Code Playgroud)

现在，我需要选择列“值”并将结果数据集转换为RDD[Array[String]]。

val rddS: RDD[String] = ds.select(concat_ws(",", col("values")).as("items")).distinct().rdd.map(_.mkString(","))
val rddArray: RDD[Array[String]] = rddS.map(s => s.trim.split(','))

Run Code Online (Sandbox Code Playgroud)

我尝试了这种方法，但不确定它是否是最好的方法。请建议我实现这一目标的最佳方式。

Answer 1

mck*_*mck 5

单线：

val rddArray: RDD[Array[String]] = ds.select("values").as[Array[String]].rdd

Run Code Online (Sandbox Code Playgroud)

顺便说一句，我建议使用基于数据帧的 Spark ML 而不是基于 RDD 的 Spark MLLib，后者现已弃用。您可以使用org.apache.spark.ml.fpm.FPGrowth.

归档时间：	5 年，1 月前
查看次数：	169 次
最近记录：	5 年，1 月前