小编Sup*_*ife的帖子

pyspark 中 CountVectorizer 的 minDF 参数是什么?

我读了火花文件,其中说

在拟合过程中,CountVectorizer将在vocabSize整个语料库中选择按词频排序的前几个词。一个可选参数minDF还通过指定术语必须出现在词汇表中的最小文档数(如果 < 1.0 则为分数)影响拟合过程。

谁能更清楚地向我解释一下?

python apache-spark pyspark

1
推荐指数
1
解决办法
1863
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1