For*_*niu 1 classification machine-learning weka feature-selection
我正在研究一个分类问题,它有不同的传感器.每个传感器收集一组数值.
我认为这是一个分类问题,并希望使用weka作为此问题的ML工具.但我不确定如何使用weka来处理输入值?哪个分类器最适合这个问题(一个特征的实例是一组数值)?
例如,我有三个传感器A,B,C.我可以将所有传感器中的5个采集数据定义为一个实例吗?例如,A的一个实例是{1,2,3,4,5,6,7},B的一个实例是{3,434,534,213,55,4,7).13 C {424,24,24,13,24,5,6}.
非常感谢您抽出时间审阅我的问题.
通常第一个尝试的分类器是朴素贝叶斯(你可以在Weka的"贝叶斯"目录下找到它),因为它很快,参数少,并且当训练样本很小时分类精度很难被击败.
随机森林(你可以在Weka的"树"目录下找到它)是另一个令人愉快的分类器,因为它几乎处理任何数据.只需运行它,看看它是否能提供更好的结果.可能只需要将树的数量从默认值10增加到更高的值.由于你有7个属性100树应该就够了.
然后我会尝试k-NN(您可以在Weka的"Lazy"目录下找到它,它被称为"IBk"),因为它通常将数量排序为各种数据集的最佳单一分类器.k-nn的唯一问题是它对于大型数据集(> 1GB)的扩展性很差,并且需要微调k,即邻居的数量.默认情况下,此值设置为1,但随着训练样本数量的增加,通常最好将其设置为2到60范围内的某个更高的整数值.
最后,对于Naive Bayes和k-nn都表现不佳的一些数据集,最好使用SVM(在"函数"下,它被称为"Lib SVM").但是,设置SVM的所有参数以获得有竞争力的结果可能很麻烦.因此,当我已经知道期望的分类准确度时,我将它留到最后.如果您有两个以上的类进行分类,则此分类器可能不是最方便的.
| 归档时间: |
|
| 查看次数: |
974 次 |
| 最近记录: |