为什么scikit-learn truncatedSVD默认使用“随机化”算法？

Kye*_*pil 3 dimension-reduction svd scikit-learn

我将术语文档矩阵的大小为30000 x 40000的truncatedSVD缩小为3000维，使用“随机化”时，使用“ arpack”时，方差比约为0.5（n_iter = 10），方差比约为0.9

“随机化”算法的方差比低于“ arpack”之一。

那么，为什么scikit-learn truncatedSVD默认使用“随机化”算法？

速度！

根据docs，sklearn.decomposition.TruncatedSVD由于Halko，Martinson和Tropp（2009）的缘故，可以使用随机算法。本文声称他们的算法要快得多。

对于密集矩阵，它以O（m * n * log（k））的时间运行，而经典算法需要O（m * n * k）的时间，其中m和n是您要从中获取矩阵的维数第k大组件。随机算法也更容易有效地并行化，并且对数据的传递较少。

本文的表7.1（第45页）显示了几种算法的性能与矩阵大小和组件数量的关系，而随机算法通常快一个数量级。

尽管有一些修改和常量可能会影响输出的准确性，但据称输出的准确性也很好（图7.5），而且我还没有通过sklearn代码来查看它们做了/没做过的事情。

归档时间：	9 年，8 月前
查看次数：	844 次
最近记录：	9 年，8 月前

交叉验证时,键中的键错误不在索引中 6

如何绘制文本簇？ 6

解决PyDev关于numpy和sklearn的未解决的导入 5

如何使用 scikit-learn 可视化两个类的边界/决策函数 5

model.fit 与 model.predict - sklearn 中的差异和用法 5

python中时间序列的线性回归 5

如何在sklearn中计算.fit（）训练模型的实际大小？ 4

sklearn PLSRegression - X 的方差由潜在向量解释 4

ScikitLearn回归:设计矩阵X对回归来说太大了.我该怎么办？ 4

SKLearn的SVM库中的负平均绝对误差是多少？ 3

如何让Git使用我选择的编辑器进行提交？ 2362

如何在Git中获取当前分支名称？ 2321

Vim清除上次搜索突出显示 1824

为什么在数组迭代中使用"for ... in"是一个坏主意？ 1761

为什么在C++中读取stdin的行比Python要慢得多？ 1738

C#在foreach中重用变量是否有原因？ 1631

你什么时候使用git rebase而不是git merge？ 1461

如何获取所有Git分支 1371

jQuery document.createElement等价？ 1226

如何从"Bobby Tables"XKCD漫画中注入SQL？ 1070