我读了火花文件,其中说
在拟合过程中,CountVectorizer将在vocabSize整个语料库中选择按词频排序的前几个词。一个可选参数minDF还通过指定术语必须出现在词汇表中的最小文档数(如果 < 1.0 则为分数)影响拟合过程。
CountVectorizer
vocabSize
minDF
谁能更清楚地向我解释一下?
python apache-spark pyspark
apache-spark ×1
pyspark ×1
python ×1