小编Ekg*_*ren的帖子

使用python和numpy中的大数据,没有足够的ram,如何在光盘上保存部分结果?

我正在尝试在python中实现具有200k +数据点的1000维数据的算法.我想使用numpy,scipy,sklearn,networkx和其他有用的库.我想执行所有点之间的成对距离等操作,并在所有点上进行聚类.我已经实现了以合理的复杂度执行我想要的工作算法但是当我尝试将它们扩展到我的所有数据时,我用完了ram.我当然这样做,在200k +数据上创建成对距离的矩阵需要很多内存.

接下来是:我真的很想在具有少量内存的糟糕计算机上执行此操作.

有没有可行的方法让我在没有低ram限制的情况下完成这项工作.它需要更长的时间才真正不是问题,只要时间要求不会无限!

我希望能够让我的算法工作,然后在一小时或五个小时后回来,而不是因为它用完了公羊而被卡住了!我想在python中实现它,并能够使用numpy,scipy,sklearn和networkx库.我希望能够计算到我所有点的成对距离等

这可行吗?我将如何解决这个问题,我可以开始阅读哪些内容?

最好的问候//梅斯默

python arrays numpy scipy bigdata

48
推荐指数
1
解决办法
2万
查看次数

使用python和DBSCAN聚类高维数据

我有一个1000维的数据集,我试图用Python中的DBSCAN集群数据.我很难理解选择哪个指标以及为什么.

有人可以解释一下吗?我应该如何决定要设置的值eps

我对数据的更精细结构感兴趣所以min_value设置为2.现在我使用sklearn中为dbscan预设的常规度量,但是对于小的eps值,例如eps<0.07,我得到一些簇但是错过了很多点和较大的值我得到几个较小的簇和一个巨大的.我确实理解一切都取决于手头的数据,但我对如何以连贯和结构化的方式选择eps值以及选择哪些指标感兴趣!

我已经阅读了这个问题以及有关10个维度的答案我有1000个:)而且我也不知道如何评估我的度量标准所以如果有更详细的解释那么会很有趣:评估你的指标!

编辑:或者有关使用现有python实现处理高维数据的其他聚类算法的提示.

python cluster-analysis data-mining n-dimensional dbscan

7
推荐指数
1
解决办法
5156
查看次数