想知道是否有内置的Spark功能将1,2,n-gram功能组合到一个词汇表中.设置n=2在NGram随后的调用CountVectorizer仅含有2克导致字典.我真正想要的是将所有频繁的1克,2克等组合成一个字典用于我的语料库.
n=2
NGram
CountVectorizer
python nlp apache-spark pyspark apache-spark-ml
apache-spark ×1
apache-spark-ml ×1
nlp ×1
pyspark ×1
python ×1