我正在使用WEKA/LibSVM来训练术语提取系统的分类器.我的数据不是线性可分的,因此我使用RBF内核而不是线性内核.
我遵循了Hsu等人的指南.并迭代c和gamma的几个值.最适合分类已知术语(测试和训练材料当然不同)的参数相当高,c = 2 ^ 10且γ= 2 ^ 3.
到目前为止,高参数似乎工作正常,但我想知道它们是否会进一步导致任何问题,特别是在过度拟合方面.我计划通过提取新术语来进行另一次评估,但由于我需要人类评判,这些评估费用很高.
即使两个评估结果都是肯定的,我的参数仍然有问题吗?我可能还需要其他内核类型吗?
非常感谢你!