Sup*_*ife 1 python apache-spark pyspark
我读了火花文件,其中说
在拟合过程中,
CountVectorizer将在vocabSize整个语料库中选择按词频排序的前几个词。一个可选参数minDF还通过指定术语必须出现在词汇表中的最小文档数(如果 < 1.0 则为分数)影响拟合过程。
谁能更清楚地向我解释一下?
小智 5
minDF用于删除出现频率太低的术语。
例如:minDF = 0.01 表示“忽略出现在不到 1% 的文档中的术语”。minDF = 5 表示“忽略出现在少于 5 个文档中的术语”。
默认的 minDF 为 1,这意味着“忽略出现在少于 1 个文档中的术语”。因此,默认设置不会忽略任何术语。
vocabSize是词汇表中可以包含的最大标记数。默认值为 1 << 18。即 2^18 或 262,144。
minDF:https://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py#L430-L435 vocabSize:https://github.com/apache/spark/blob/master/python /pyspark/ml/feature.py#L444-L446
| 归档时间: |
|
| 查看次数: |
1863 次 |
| 最近记录: |