pyspark 中 CountVectorizer 的 minDF 参数是什么?

Sup*_*ife 1 python apache-spark pyspark

我读了火花文件,其中说

在拟合过程中,CountVectorizer将在vocabSize整个语料库中选择按词频排序的前几个词。一个可选参数minDF还通过指定术语必须出现在词汇表中的最小文档数(如果 < 1.0 则为分数)影响拟合过程。

谁能更清楚地向我解释一下?

小智 5

minDF用于删除出现频率太低的术语。

例如:minDF = 0.01 表示“忽略出现在不到 1% 的文档中的术语”。minDF = 5 表示“忽略出现在少于 5 个文档中的术语”。

默认的 minDF 为 1,这意味着“忽略出现在少于 1 个文档中的术语”。因此,默认设置不会忽略任何术语。

vocabSize是词汇表中可以包含的最大标记数。默认值为 1 << 18。即 2^18 或 262,144。

minDFhttps://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py#L430-L435 vocabSizehttps://github.com/apache/spark/blob/master/python /pyspark/ml/feature.py#L444-L446