myr*_*ks2 5 java nlp weka feature-selection
所以我试图使用Weka SVM对文本进行分类.到目前为止,我用于训练SVM的特征向量由培训文本中出现的unigrams和bigrams的TF-IDF统计数据组成.但是,我从测试训练有素的SVM模型得到的结果根本不准确,所以有人能给我反馈我的程序吗?我按照以下步骤对文本进行分类:
还有,我需要训练具有更多功能的SVM吗?如果是这样,在这种情况下哪些功能最有效?非常感谢任何帮助,谢谢.
小智 8
自然语言文档通常包含许多只出现一次的单词,也称为Hapax Legomenon.例如,Moby-Dick中44%的不同单词只出现一次,17%出现两次.
因此,包括来自语料库的所有单词通常会导致过多的特征.为了减小此功能空间的大小,NLP系统通常使用以下一项或多项:
对于词干,删除停用词,索引语料库,计算tf_idf或文档相似性,我建议使用Lucene.谷歌"Lucene在5分钟内"提供了一些关于使用lucene的快速简便的教程.