通常,TF-IDF何时会降低准确性?

Tra*_*net 0 tf-idf sentiment-analysis text-classification naivebayes

我正在使用朴素贝叶斯模型将包含200000条评论的语料库分为正面评论和负面评论,并且我注意到执行TF-IDF实际上会使准确性(在对50000条评论的测试集进行测试时)降低了约2%。因此,我想知道TF-IDF是否对使用的数据或模型有任何潜在的假设,即是否存在因使用它而降低准确性的情况?

Pas*_*ucy 6

TF * IDF的IDF组件在某些情况下会损害您的分类准确性。

假设为说明起见,进行了以下人为的,简单的分类任务:

  • A类:包含“玉米”一词的文本
  • B类:不包含“玉米”一词的文本

现在假设在A类中有100 000个示例,在B类中有1000个示例。

TFIDF将发生什么?玉米的逆文档频率将非常低(因为几乎在所有文档中都可以找到),特征“玉米”将获得非常小的TFIDF,这是分类器使用的特征的权重。显然,“玉米”是此分类任务的最佳功能。这是TFIDF可能会降低分类精度的示例。一般而言:

  • 当班级失衡时。如果您在一类中有更多实例,则频繁班级的好词特征可能具有较低的IDF,因此其最佳特征的权重也会降低
  • 当您的单词具有很高的频率,可以很好地预测其中一个类别(该类别的大多数文档中都包含这些词语)