pyspark 中 CountVectorizer 的 minDF 参数是什么？

Question

我读了火花文件，其中说

在拟合过程中，CountVectorizer将在vocabSize整个语料库中选择按词频排序的前几个词。一个可选参数minDF还通过指定术语必须出现在词汇表中的最小文档数（如果 < 1.0 则为分数）影响拟合过程。

谁能更清楚地向我解释一下？

Answer 1

minDF用于删除出现频率太低的术语。

例如：minDF = 0.01 表示“忽略出现在不到 1% 的文档中的术语”。minDF = 5 表示“忽略出现在少于 5 个文档中的术语”。

默认的 minDF 为 1，这意味着“忽略出现在少于 1 个文档中的术语”。因此，默认设置不会忽略任何术语。

vocabSize是词汇表中可以包含的最大标记数。默认值为 1 << 18。即 2^18 或 262,144。