标签: data-mining

Datamining开源软件替代品

我正在评估数据挖掘包.
到目前为止我找到了这两个:

您是否有经验与这两种产品或任何其他产品分享推荐给我？
谢谢

open-source data-mining

16
推荐指数

2
解决办法

5649
查看次数

你如何在python中将这三个区域分组/聚类在数组中？

所以你有一个阵列

Run Code Online (Sandbox Code Playgroud)

为了更好地理解:

为了更好地理解

你如何在python(v2.6)中对数组中的三个区域进行分组/聚类,因此在这种情况下你得到三个数组

[1 2 3] [60 70 80 100] [220 230 250]

背景:

y轴是频率,x轴是数字.这些数字是由它们的频率表示的十个最高幅度.我想从它们创建三个离散数字用于模式识别.可能会有更多的点,但所有这些点都按照相对较大的频率差异进行分组,如本例所示,在大约50和大约0之间以及大约100和大约220之间.请注意,什么是大的,什么是小变化但是与群组/群集的元素之间的差异相比,群集之间的差异仍然很大.

python pattern-recognition cluster-analysis data-mining

16
推荐指数

4
解决办法

8140
查看次数

聚类余弦相似度矩阵

有关stackoverflow的一些问题提到了这个问题,但我还没有找到具体的解决方案.

我有一个方形矩阵,由余弦相似性(0到1之间的值)组成,例如:

  |  A  |  B  |  C  |  D
A | 1.0 | 0.1 | 0.6 |  0.4
B | 0.1 | 1.0 | 0.1 |  0.2
C | 0.6 | 0.1 | 1.0 |  0.7
D | 0.4 | 0.2 | 0.7 |  1.0

Run Code Online (Sandbox Code Playgroud)

方阵可以是任何尺寸.我想获得最大化集群中元素之间的值的集群(我不知道有多少).即上面的例子我应该得到两个集群:

乙
A,C,D

原因是因为C&D在它们之间具有最高价值,而A&C也具有它们之间的最高价值.

项目只能位于一个群集中.

召回对于这个问题并不重要,但精确度非常重要.输出三个簇是可以接受的:1)B,2)A,3)C,D.但是输出任何其中B与另一个元素在一个簇中的解决方案是不可接受的.

我认为对角线(1.0)令我感到困惑.我的数据保证至少有一个2+元素的集群,我想在不牺牲精度的情况下找到尽可能多的集群.

我将不得不在Python中实现它.

python math cluster-analysis data-mining scikit-learn

16
推荐指数

1
解决办法

1万
查看次数

do_one(nmeth)出错:外部函数调用中的NA/NaN/Inf(arg 1)

我有一个包含数字的数据表("norm") - 至少我能看到的 - 以下形式的规范化值:

表格的截图

当我执行

k <- kmeans(norm,center=3)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)

Run Code Online (Sandbox Code Playgroud)

你能帮助我吗？谢谢!

r cluster-analysis machine-learning data-mining k-means

16
推荐指数

2
解决办法

4万
查看次数

用于图像模式识别的java框架？

我正在寻找一个Java框架来帮助一些特定于图像的数据挖掘.我们有一组历史图像,我想分类和分类.我希望找到像weka http://www.cs.waikato.ac.nz/ml/weka/或Marsyas http://marsyas.sness.net这样的东西,但更具体的是筛选图像数据以找到模式.有什么建议？

java image-recognition data-mining

15
推荐指数

2
解决办法

3万
查看次数

最佳数据挖掘数据库

我是一个偶尔的Python程序员,到目前为止只使用MYSQL或SQLITE数据库.我是一家小公司的计算机人员,我已经开始了一个新的项目,我认为这是时候尝试新的数据库.

销售部门每周进行一次CSV转储,我需要制作一个小型脚本应用程序,允许人们组成其他部门混合信息,主要是链接记录.我已经解决了所有这些问题,我的问题是速度,我只是使用纯文本文件而且毫不奇怪它很慢.

我想过使用mysql,但后来我需要在每个桌面安装mysql,sqlite更容易,但速度很慢.我不需要一个完整的关系数据库,只需要在适当的时间内使用大量数据.

更新:我想我的数据库使用情况并不是很详细,因此严重地解释了我的问题.我正在读取所有数据〜900 Megas或更多,从csv到Python字典,然后使用它.我的问题是存储并且主要是快速读取数据.

非常感谢!

python database data-mining nosql

15
推荐指数

2
解决办法

1万
查看次数

检索人口密度数据

我需要弄清楚某个地点是否被视为城市或乡村.我认为最好的方法是查看城市/州或省/国家组合的人口密度.

踢球者是我们将其用于数据挖掘.通常,可以执行此操作的映射API要求每个请求必须响应单个用户操作.这不符合标准......使用Web服务,我们将为任何单个用户操作进行数百次Web服务调用.所以我认为我们不能真正使用谷歌地图API这样的东西.

问题是,什么是可用的？是否有可以下载的数据库,我可以使用它来检索这些数据,或实际允许数据挖掘的Web服务？我使用PHP,虽然编程语言并不重要.我敢肯定,如果我能获得数据,我可以使用PHP.

database gis geocoding data-mining population

15
推荐指数

2
解决办法

4678
查看次数

Sharkscope或PTR数据究竟是如何挖掘所有这些手的？

我很想知道这个过程是如何运作的.这些网站(http://www.sharkscope.com和http://www.pokertableratings.com)的数据每天都来自安全的扑克网络,如PokerStars和Full Tilt.

他们是否有一个服务器场运行应用程序,打开数百个表(窗口),然后以某种方式蜘蛛/数据正在播放的手？

这是如何工作的,编程明智？

poker data-mining

15
推荐指数

2
解决办法

1万
查看次数

将MIT-BIH心律失常心电图数据库加载到MATLAB上

我正在使用涉及模式识别的神经网络进行ECG信号处理.由于我需要从Matlab收集所有数据以将其用作测试信号,我发现很难将其加载到Matlab上.我在这里使用MIT心律失常数据库.

需要将信号编入索引并以Matlab兼容格式存储为数据结构.目前,该信号是在.atr和.dat格式.

如何将MIT-BIH心律失常数据库加载到Matlab上？

database matlab signals signal-processing data-mining

15
推荐指数

1
解决办法

4万
查看次数

在机器学习中使用反馈或强化？

我正在尝试解决一些分类问题.似乎许多经典方法遵循类似的范例.也就是说,训练具有一些训练集的模型,而不是使用它来预测新实例的类标签.

我想知道是否有可能在范式中引入一些反馈机制.在控制理论中,引入反馈回路是提高系统性能的有效方法.

目前我想到的是一种直接的方法,首先我们从一组初始实例开始,然后用它们训练模型.然后,每次模型做出错误预测时,我们都会将错误的实例添加到训练集中.这与盲目扩大训练集不同,因为它更具针对性.这可以看作是控制理论语言中的某种负反馈.

是否有任何关于反馈方法的研究？谁能解开一些光明？

machine-learning data-mining

15
推荐指数

2
解决办法

8169
查看次数

标签统计

data-mining ×10

cluster-analysis ×3

machine-learning ×2

gis ×1

image-recognition ×1

java ×1

math ×1

open-source ×1

pattern-recognition ×1

r ×1

scikit-learn ×1

signal-processing ×1

«
1
…
5
6
7
8
9
…
48
»