文字分类方法?SVM和决策树

zsh*_*zsh 10 classification svm

我有一套训练集,我想根据我的训练集使用分类方法对其他文件进行分类.我的文件类型是新闻,类别是体育,政治,经济等.

我完全理解天真的贝叶斯和KNN,但SVM和决策树是模糊的,我不知道我是否可以自己实现这个方法?或者有使用这种方法的应用程序?

我可以用这种方式对文档进行分类的最佳方法是什么?

谢谢!

Fre*_*Ren 12

  • 朴素贝叶斯

虽然这是最简单的算法,并且一切都被认为是独立的,但在实际文本分类的情况下,这种方法效果很好.我会首先尝试这个算法.

  • KNN

KNN用于聚类而不是分类.我认为你误解了聚类和分类的概念.

  • SVM

SVM具有SVC(分类)和SVR(回归)算法来进行类分类和预测.它有时运行良好,但从我的经验来看,它在文本分类方面表现不佳,因为它对好的标记器(过滤器)有很高的要求.但是数据集的字典总是有脏标记.准确性非常糟糕.

  • 随机森林(决策树)

我从来没有尝试过这种方法进行文本分类.因为我认为决策树需要几个关键节点,而文本分类很难找到"几个关键令牌",随机森林对高稀疏维度也不好.

FYI

这些都来自我的经验,但对于您的情况,您没有更好的方法来决定使用哪种方法,但尝试每种算法以适合您的模型.

Apache的Mahout是机器学习算法的绝佳工具.它集成了三个方面的算法:推荐,聚类和分类.你可以尝试这个库.但是你必须学习一些关于Hadoop的基本知识.

对于机器学习,weka是一个集成了许多算法的体验软件工具包.

  • -1. SVM 是文本分类的顶级技术之一,大量关于该主题的出版物证明了这一点。您应该使用 **SVC** 进行分类,而不是 **SVR**。 (2认同)

Raf*_*ard 6

线性SVM是文本分类问题的顶级算法之一(与Logistic回归一起).决策树在如此高维度的特征空间中受到严重影响.

Pegasos机器算法是最简单的线性SVM算法之一,是非常有效的.

编辑:Multinomial朴素贝叶斯也适用于文本数据,但通常不如线性SVM.kNN可以正常工作,但它是一个已经很慢的算法,并且永远不会超过文本问题的准确性图表.