在apache mahout中的nGrams

Gre*_*orn 3 bayesian n-gram mahout

我通过apache mahout运行朴素贝叶斯分类器算法.我们可以选择在训练和运行算法实例时设置克大小.

将我的n-Gram大小从1更改为2会大大改变生成的分类.为什么会这样?n-gram的大小如何使结果发生剧烈变化?

Sea*_*wen 6

1克是单词.2克(或双字母)是成对的单词.这就像根据"美国"和"国家"或"美国"的存在对文件进行分类.使用bigrams可能会有一些空间和性能影响,但可能会比1克更好的结果.