用于核外计算/数据挖掘的Python工具

use*_*375 14 python database numpy data-mining large-data

我对python mining数据集感兴趣,这些数据集太大而无法放在RAM中但只能放在一个HD中.

据我所知,我可以将数据导出为hdf5文件pytables.还numexpr允许一些基本的核外计算.

接下来会发生什么?尽可能进行小批量处理,并且在不能使用迷你批处理时依靠线性代数结果来分解计算?

还是有一些我错过的更高级别的工具?

感谢您的见解,

oDD*_*ooL 3

在 sklearn 0.14(将在未来几天发布)中,有一个文本文档的核心外分类的成熟示例。

我认为这可能是一个很好的例子:

http://scikit-learn.org/dev/auto_examples/applications/plot_out_of_core_classification.html

在下一个版本中,我们将使用更多分类器扩展此示例,并在用户指南中添加文档。

注意:您也可以使用 0.13 重现此示例,所有构建块都已存在。