所以你有一个阵列
1
2
3
60
70
80
100
220
230
250
Run Code Online (Sandbox Code Playgroud)
为了更好地理解:

你如何在python(v2.6)中对数组中的三个区域进行分组/聚类,因此在这种情况下你得到三个数组
[1 2 3] [60 70 80 100] [220 230 250]
背景:
y轴是频率,x轴是数字.这些数字是由它们的频率表示的十个最高幅度.我想从它们创建三个离散数字用于模式识别.可能会有更多的点,但所有这些点都按照相对较大的频率差异进行分组,如本例所示,在大约50和大约0之间以及大约100和大约220之间.请注意,什么是大的,什么是小变化但是与群组/群集的元素之间的差异相比,群集之间的差异仍然很大.
有关stackoverflow的一些问题提到了这个问题,但我还没有找到具体的解决方案.
我有一个方形矩阵,由余弦相似性(0到1之间的值)组成,例如:
| A | B | C | D
A | 1.0 | 0.1 | 0.6 | 0.4
B | 0.1 | 1.0 | 0.1 | 0.2
C | 0.6 | 0.1 | 1.0 | 0.7
D | 0.4 | 0.2 | 0.7 | 1.0
Run Code Online (Sandbox Code Playgroud)
方阵可以是任何尺寸.我想获得最大化集群中元素之间的值的集群(我不知道有多少).即上面的例子我应该得到两个集群:
原因是因为C&D在它们之间具有最高价值,而A&C也具有它们之间的最高价值.
项目只能位于一个群集中.
召回对于这个问题并不重要,但精确度非常重要.输出三个簇是可以接受的:1)B,2)A,3)C,D.但是输出任何其中B与另一个元素在一个簇中的解决方案是不可接受的.
我认为对角线(1.0)令我感到困惑.我的数据保证至少有一个2+元素的集群,我想在不牺牲精度的情况下找到尽可能多的集群.
我将不得不在Python中实现它.
我有一个包含数字的数据表("norm") - 至少我能看到的 - 以下形式的规范化值:

当我执行
k <- kmeans(norm,center=3)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
Run Code Online (Sandbox Code Playgroud)
你能帮助我吗?谢谢!
我正在寻找一个Java框架来帮助一些特定于图像的数据挖掘.我们有一组历史图像,我想分类和分类.我希望找到像weka http://www.cs.waikato.ac.nz/ml/weka/或Marsyas http://marsyas.sness.net这样的东西,但更具体的是筛选图像数据以找到模式.有什么建议?
我是一个偶尔的Python程序员,到目前为止只使用MYSQL或SQLITE数据库.我是一家小公司的计算机人员,我已经开始了一个新的项目,我认为这是时候尝试新的数据库.
销售部门每周进行一次CSV转储,我需要制作一个小型脚本应用程序,允许人们组成其他部门混合信息,主要是链接记录.我已经解决了所有这些问题,我的问题是速度,我只是使用纯文本文件而且毫不奇怪它很慢.
我想过使用mysql,但后来我需要在每个桌面安装mysql,sqlite更容易,但速度很慢.我不需要一个完整的关系数据库,只需要在适当的时间内使用大量数据.
更新:我想我的数据库使用情况并不是很详细,因此严重地解释了我的问题.我正在读取所有数据〜900 Megas或更多,从csv到Python字典,然后使用它.我的问题是存储并且主要是快速读取数据.
非常感谢!
我需要弄清楚某个地点是否被视为城市或乡村.我认为最好的方法是查看城市/州或省/国家组合的人口密度.
踢球者是我们将其用于数据挖掘.通常,可以执行此操作的映射API要求每个请求必须响应单个用户操作.这不符合标准......使用Web服务,我们将为任何单个用户操作进行数百次Web服务调用.所以我认为我们不能真正使用谷歌地图API这样的东西.
问题是,什么是可用的?是否有可以下载的数据库,我可以使用它来检索这些数据,或实际允许数据挖掘的Web服务?我使用PHP,虽然编程语言并不重要.我敢肯定,如果我能获得数据,我可以使用PHP.
我很想知道这个过程是如何运作的.这些网站(http://www.sharkscope.com和http://www.pokertableratings.com)的数据每天都来自安全的扑克网络,如PokerStars和Full Tilt.
他们是否有一个服务器场运行应用程序,打开数百个表(窗口),然后以某种方式蜘蛛/数据正在播放的手?
这是如何工作的,编程明智?
我正在使用涉及模式识别的神经网络进行ECG信号处理.由于我需要从Matlab收集所有数据以将其用作测试信号,我发现很难将其加载到Matlab上.我在这里使用MIT心律失常数据库.
需要将信号编入索引并以Matlab兼容格式存储为数据结构.目前,该信号是在.atr和.dat格式.
如何将MIT-BIH心律失常数据库加载到Matlab上?
我正在尝试解决一些分类问题.似乎许多经典方法遵循类似的范例.也就是说,训练具有一些训练集的模型,而不是使用它来预测新实例的类标签.
我想知道是否有可能在范式中引入一些反馈机制.在控制理论中,引入反馈回路是提高系统性能的有效方法.
目前我想到的是一种直接的方法,首先我们从一组初始实例开始,然后用它们训练模型.然后,每次模型做出错误预测时,我们都会将错误的实例添加到训练集中.这与盲目扩大训练集不同,因为它更具针对性.这可以看作是控制理论语言中的某种负反馈.
是否有任何关于反馈方法的研究?谁能解开一些光明?
data-mining ×10
database ×3
python ×3
geocoding ×1
gis ×1
java ×1
k-means ×1
math ×1
matlab ×1
nosql ×1
open-source ×1
poker ×1
population ×1
r ×1
scikit-learn ×1
signals ×1