大规模数据集的内核方法

dev*_*rus 5 arrays classification machine-learning computation

基于内核的分类器通常需要O(n ^ 3)个训练时间,因为两个实例之间的内积计算.为了加速训练,可以预先计算内积值并将其存储在二维阵列中.但是当没有.实例非常大,超过100,000,没有足够的内存来执行此操作.

那么对此更好的想法?

kwa*_*ord 0

相关向量机具有顺序训练模式,您不需要将整个核矩阵保留在内存中。您基本上可以一次计算一列,确定它是否相关,否则将其丢弃。不过,我自己的运气并不好,而且 RVM 还有其他一些问题。在高斯过程领域很可能有更好的解决方案。我并没有真正坐下来讨论这些问题,但我看到有人提到过它的在线算法。