use*_*581 5 r machine-learning svm kernlab
我正在尝试使用用户定义的内核。我知道 kernlab 在 R 中提供用户定义的内核(自定义内核函数)。我使用了数据垃圾邮件,包括包 kernlab。(变量数=57 示例数=4061)
我定义了内核的形式,
kp=function(d,e){
as=v*d
bs=v*e
cs=as-bs
cs=as.matrix(cs)
exp(-(norm(cs,"F")^2)/2)
}
class(kp)="kernel"
Run Code Online (Sandbox Code Playgroud)
它是高斯核的变换核,其中v是关于每个变量的标准偏差向量的倒数的连续变化值,例如:
v=(0.1666667,........0.1666667)
Run Code Online (Sandbox Code Playgroud)
训练集定义了 60% 的垃圾邮件数据(保留不同类别的比例)。
如果数据的类型是垃圾邮件,则训练 svm 的数据类型 = 1
m=ksvm(xtrain,ytrain,type="C-svc",kernel=kp,C=10)
Run Code Online (Sandbox Code Playgroud)
但是这一步不起作用。它总是在等待回应。
所以,我问你这个问题,为什么?是不是因为例子的数量太多了?是否有任何其他 R 包可以为用户定义的内核训练 SVM?
首先,你的内核看起来像一个经典的 RBF 内核,带有v = 1/sigma,那么你为什么使用它呢?您可以使用内置的RBF内核并只需设置sigma参数即可。特别是 - 您可以在矢量化矩阵上使用经典欧几里得,而不是在矩阵上使用弗罗贝尼乌斯范数。
其次-这工作得很好。
> xtrain = as.matrix( c(1,2,3,4) )
> ytrain = as.factor( c(0,0,1,1) )
> v= 0.01
> m=ksvm(xtrain,ytrain,type="C-svc",kernel=kp,C=10)
> m
Support Vector Machine object of class "ksvm"
SV type: C-svc (classification)
parameter : cost C = 10
Number of Support Vectors : 4
Objective Function Value : -39.952
Training error : 0
Run Code Online (Sandbox Code Playgroud)
至少有两个原因让您仍在等待结果:
C)由于我不确定是否ksvm真正优化了用户定义的内核计算(事实上我很确定它没有),您可以尝试构建内核矩阵(训练向量在哪里)并提供K[i,j] = K(x_i,x_j)它。您可以通过以下方式实现这一目标x_ii'thksvm
K <- kernelMatrix(kp,xtrain)
m <- ksvm(K,ytrain,type="C-svc",kernel='matrix',C=10)
Run Code Online (Sandbox Code Playgroud)
预计算内核矩阵可能是一个相当长的过程,但优化本身会快得多,因此如果您想测试许多不同的C值(您肯定应该这样做),那么这是一个很好的方法。不幸的是,这需要O(n^2)内存,因此如果您使用超过 100 000 个向量,您将需要大量的 RAM。