sam*_*ara 2 text classification machine-learning svm weka
我有针对特定类别(比如癌症)的训练数据集(文本).我想在weka中为这个类训练一个SVM分类器.但是,当我尝试通过创建一个文件夹'癌症'并将所有这些培训文件放到该文件夹时,当我运行代码时,我得到以下错误:weka.classifiers.functions.SMO:无法处理一元类!
我想要做的是,如果分类器找到与"癌症"相关的文档,它会正确地说出类名,一旦我输入了非癌症文档,就应该说"未知".
我该怎么做才能得到这种行为?
Weka中的SMO算法仅在两个类之间进行二进制分类.Sequential Minimal Optimization是一个用于求解SVM的特定算法,在Weka中这是该算法的基本实现.如果你有一些癌症的例子和一些不是癌症的例子,那么这将是二元的,也许你没有正确地标记它们.
但是,如果您使用的训练数据都是癌症的例子,并且您希望它告诉您未来的示例是否符合该模式,那么您正在尝试进行一类SVM,即异常值检测.
Weka中的LibSVM可以处理单级svm.与Weka SMO实现不同,LibSVM是一个独立的程序,它已经与Weka连接并包含许多不同的SVM变体.这篇文章在Wekalist介绍了如何在Weka中使用LIBSVM这一点.