PySpark:如何将具有 SparseVector 类型列的 Spark 数据帧写入 CSV 文件?

Ale*_*lex 5 python apache-spark pyspark

我有一个 Spark 数据框,其中有一列类型为 spark.mllib.linalg.SparseVector:

1)如何将其写入csv文件?

2)如何打印所有向量?

Kri*_*ian 2

  1. https://github.com/databricks/spark-csv
  2. df2 = df1.map(lambda row: row.yourVectorCol)

    或者df1.map(lambda row: row[1])

    其中您可以有一个命名列,也可以仅通过该列在行中的位置来引用该列。

    然后,要打印它,您可以df2.collect()

如果没有更多信息,这可能对您有帮助,也可能对您帮助不够。请详细说明一下。