文字分类方法？SVM和决策树

Question

我有一套训练集,我想根据我的训练集使用分类方法对其他文件进行分类.我的文件类型是新闻,类别是体育,政治,经济等.

我完全理解天真的贝叶斯和KNN,但SVM和决策树是模糊的,我不知道我是否可以自己实现这个方法？或者有使用这种方法的应用程序？

我可以用这种方式对文档进行分类的最佳方法是什么？

谢谢!

Answer 1

虽然这是最简单的算法,并且一切都被认为是独立的,但在实际文本分类的情况下,这种方法效果很好.我会首先尝试这个算法.

KNN用于聚类而不是分类.我认为你误解了聚类和分类的概念.

SVM具有SVC(分类)和SVR(回归)算法来进行类分类和预测.它有时运行良好,但从我的经验来看,它在文本分类方面表现不佳,因为它对好的标记器(过滤器)有很高的要求.但是数据集的字典总是有脏标记.准确性非常糟糕.

我从来没有尝试过这种方法进行文本分类.因为我认为决策树需要几个关键节点,而文本分类很难找到"几个关键令牌",随机森林对高稀疏维度也不好.

FYI

这些都来自我的经验,但对于您的情况,您没有更好的方法来决定使用哪种方法,但尝试每种算法以适合您的模型.

Apache的Mahout是机器学习算法的绝佳工具.它集成了三个方面的算法:推荐,聚类和分类.你可以尝试这个库.但是你必须学习一些关于Hadoop的基本知识.

对于机器学习,weka是一个集成了许多算法的体验软件工具包.

Answer 2

线性SVM是文本分类问题的顶级算法之一(与Logistic回归一起).决策树在如此高维度的特征空间中受到严重影响.

的Pegasos机器算法是最简单的线性SVM算法之一,是非常有效的.

编辑:Multinomial朴素贝叶斯也适用于文本数据,但通常不如线性SVM.kNN可以正常工作,但它是一个已经很慢的算法,并且永远不会超过文本问题的准确性图表.