如何将稀疏向量的 Spark DataFrame 列转换为密集向量列？

Question

如何将稀疏向量的 Spark DataFrame 列转换为密集向量列？

Sas*_*een 4 dataframe apache-spark apache-spark-sql apache-spark-ml apache-spark-mllib

我使用了以下代码：

df.withColumn("dense_vector", $"sparse_vector".toDense)

Run Code Online (Sandbox Code Playgroud)

但它给出了一个错误。

我是 Spark 的新手，所以这可能很明显，我的代码行中可能有明显的错误。请帮忙。谢谢！

Answer 1

zer*_*323 6

需要这样操作的上下文在 Spark 中相对较少。除了一两个例外，Spark API 期望通用Vector类而不是特定实现（SparseVector, DenseVector）。在分布式结构的情况下也是如此o.a.s.mllib.linalg.distributed

import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.linalg.distributed.RowMatrix

val df = Seq[(Long, Vector)](
  (1L, Vectors.dense(1, 2, 3)), (2L, Vectors.sparse(3, Array(1), Array(3)))
).toDF("id", "v")

new RowMatrix(df.select("v")
  .map(_.getAs[Vector]("v")))
  .columnSimilarities(0.9)
  .entries
  .first
// apache.spark.mllib.linalg.distributed.MatrixEntry = MatrixEntry(0,2,1.0)

Run Code Online (Sandbox Code Playgroud)

不过，您可以像这样使用 UDF：

val asDense = udf((v: Vector) => v.toDense)

df.withColumn("vd", asDense($"v")).show
// +---+-------------+-------------+
// | id|            v|           vd|
// +---+-------------+-------------+
// |  1|[1.0,2.0,3.0]|[1.0,2.0,3.0]|
// |  2|(3,[1],[3.0])|[0.0,3.0,0.0]|
// +---+-------------+-------------+

Run Code Online (Sandbox Code Playgroud)

请记住，由于版本 2.0 Spark 提供了两种不同且兼容的Vector类型：

o.a.s.ml.linalg.Vector
o.a.s.mllib.linalg.Vector

每个都有相应的 SQL UDT。在 Spark 2.0 中访问向量列时参见MatchError

归档时间：	9 年，2 月前
查看次数：	8474 次
最近记录：	6 年，10 月前