TF/IDF可以考虑课程

Question

使用classsication algorythm(例如naive bayes或SVM)和StringToWordVector,是否可以使用TF/IDF并计算整个当前类中的术语频率,而不是只查看单个文档？

让我解释一下,我希望计算能够给出给定类(不仅仅是给定文档)非常频繁但在整个语料库中不常见的单词的高分.

开箱即用还是需要一些额外的开发？

谢谢 :)

Answer 1

我希望计算能够为给定类(不仅仅是给定文档)非常频繁的单词给出高分,但在整个语料库中不是非常频繁.

你似乎想要监督的术语加权.我不知道有任何现成的实施,但有很多关于它的文献.例如,加权方案tf-χ2用χ2独立性检验的结果替换idf,因此在统计上依赖于某些类的项被提升,并且还有其他几个.

Tf-idf本身就是无人监管的本质.

Answer 2

我认为您在这里感到困惑——您所要求的本质上是该类别文档的该术语的特征权重。这就是学习算法想要优化的。只需担心文档的有用表示，它必须对于它们所属的类是不变的（因为您不知道未见过的测试文档的类是什么）。