小编lee*_*lee的帖子

使用 Spark CountVectorizer 时如何“标准化”向量值?

CountVectorizer并且CountVectorizerModel经常创建一个稀疏特征向量,如下所示:

(10,[0,1,4,6,8],[2.0,1.0,1.0,1.0,1.0])
Run Code Online (Sandbox Code Playgroud)

这基本上表示词汇表的总大小为 10,当前文档有 5 个唯一元素,在特征向量中,这 5 个唯一元素的位置为 0、1、4、6 和 8。此外,其中一个元素显示上涨两倍,因此值为 2.0。

现在,我想“规范化”上述特征向量并使其看起来像这样,

(10,[0,1,4,6,8],[0.3333,0.1667,0.1667,0.1667,0.1667])
Run Code Online (Sandbox Code Playgroud)

即,每个值除以 6,即所有元素的总数。例如,0.3333 = 2.0/6

那么有没有一种方法可以有效地做到这一点呢?

谢谢!

apache-spark countvectorizer

5
推荐指数
1
解决办法
2835
查看次数

标签 统计

apache-spark ×1

countvectorizer ×1