pyspark:scarsey稀疏矩阵的稀疏向量

Luk*_*uke 8 scipy tf-idf apache-spark pyspark

我有一个带有一列短句的火花数据框和一个带有分类变量的列.我想tf-idf对句子执行one-hot-encoding分类变量,然后将其输出到我的驱动程序上的稀疏矩阵,一旦它的尺寸小得多(对于scikit-learn模型).

以稀疏形式从火花中获取数据的最佳方法是什么?看起来toArray()稀疏矢量只有一种方法,它输出numpy数组.但是,文档确实说scipy稀疏数组可以用于代替spark sparse数组.

还要记住,tf_idf值实际上是一列稀疏数组.理想情况下,将所有这些功能集成到一个大型稀疏矩阵中会很不错.

use*_*411 13

一种可能的解决方案可表示如下:

另一个: