Pra*_*dey 5 machine-learning svm
我正在尝试使用 UCI 数据集构建一个分类器来预测乳腺癌。我正在使用支持向量机。尽管我最真诚地努力提高分类器的准确性,但我无法超过 97.062%。我尝试了以下方法:
1. Finding the most optimal C and gamma using grid search.
2. Finding the most discriminative feature using F-score.
Run Code Online (Sandbox Code Playgroud)
有人可以建议我提高准确性的技术吗?我的目标是至少 99%。
1.Data are already normalized to the ranger of [0,10]. Will normalizing it to [0,1] help?
2. Some other method to find the best C and gamma?
Run Code Online (Sandbox Code Playgroud)
小智 4
对于 SVM,对所有特征进行相同的缩放非常重要,通常它是通过缩放每个(列)特征中的值来完成的,使得平均值为 0,方差为 1。另一种方法是缩放它,使得最小值和max 例如为 0 和 1。但是,[0, 1] 和 [0, 10] 之间没有任何区别。两者都将表现出相同的性能。
如果您坚持使用 SVM 进行分类,另一种可能带来改进的方法是集成多个 SVM。如果您使用的是 Python,您可以尝试BaggingClassifier从sklearn.ensemble.
另请注意,您不能期望从一组真实的训练数据中获得任何性能。我觉得97%已经是非常好的表现了。如果高于此值,则可能会过度拟合数据。
| 归档时间: |
|
| 查看次数: |
10884 次 |
| 最近记录: |