Loi*_*oic 6 machine-learning weka
使用classsication algorythm(例如naive bayes或SVM)和StringToWordVector,是否可以使用TF/IDF并计算整个当前类中的术语频率,而不是只查看单个文档?
让我解释一下,我希望计算能够给出给定类(不仅仅是给定文档)非常频繁但在整个语料库中不常见的单词的高分.
开箱即用还是需要一些额外的开发?
谢谢 :)
我认为您在这里感到困惑——您所要求的本质上是该类别文档的该术语的特征权重。这就是学习算法想要优化的。只需担心文档的有用表示,它必须对于它们所属的类是不变的(因为您不知道未见过的测试文档的类是什么)。
| 归档时间: |
|
| 查看次数: |
788 次 |
| 最近记录: |