Tra*_*net 0 tf-idf sentiment-analysis text-classification naivebayes
我正在使用朴素贝叶斯模型将包含200000条评论的语料库分为正面评论和负面评论,并且我注意到执行TF-IDF实际上会使准确性(在对50000条评论的测试集进行测试时)降低了约2%。因此,我想知道TF-IDF是否对使用的数据或模型有任何潜在的假设,即是否存在因使用它而降低准确性的情况?
TF * IDF的IDF组件在某些情况下会损害您的分类准确性。
假设为说明起见,进行了以下人为的,简单的分类任务:
现在假设在A类中有100 000个示例,在B类中有1000个示例。
TFIDF将发生什么?玉米的逆文档频率将非常低(因为几乎在所有文档中都可以找到),特征“玉米”将获得非常小的TFIDF,这是分类器使用的特征的权重。显然,“玉米”是此分类任务的最佳功能。这是TFIDF可能会降低分类精度的示例。一般而言:
归档时间: |
|
查看次数: |
1769 次 |
最近记录: |