标签: data-mining

Datamining开源软件替代品

我正在评估数据挖掘包.
到目前为止我找到了这两个:

  • RapidMiner
  • WEKA
  • 您是否有经验与这两种产品或任何其他产品分享推荐给我?
    谢谢

    open-source data-mining

    16
    推荐指数
    2
    解决办法
    5649
    查看次数

    你如何在python中将这三个区域分组/聚类在数组中?

    所以你有一个阵列

    1
    2
    3
    60
    70
    80
    100
    220
    230
    250
    
    Run Code Online (Sandbox Code Playgroud)

    为了更好地理解:

    为了更好地理解

    你如何在python(v2.6)中对数组中的三个区域进行分组/聚类,因此在这种情况下你得到三个数组

    [1 2 3] [60 70 80 100] [220 230 250]

    背景:

    y轴是频率,x轴是数字.这些数字是由它们的频率表示的十个最高幅度.我想从它们创建三个离散数字用于模式识别.可能会有更多的点,但所有这些点都按照相对较大的频率差异进行分组,如本例所示,在大约50和大约0之间以及大约100和大约220之间.请注意,什么是大的,什么是小变化但是与群组/群集的元素之间的差异相比,群集之间的差异仍然很大.

    python pattern-recognition cluster-analysis data-mining

    16
    推荐指数
    4
    解决办法
    8140
    查看次数

    聚类余弦相似度矩阵

    有关stackoverflow的一些问题提到了这个问题,但我还没有找到具体的解决方案.

    我有一个方形矩阵,由余弦相似性(0到1之间的值)组成,例如:

      |  A  |  B  |  C  |  D
    A | 1.0 | 0.1 | 0.6 |  0.4
    B | 0.1 | 1.0 | 0.1 |  0.2
    C | 0.6 | 0.1 | 1.0 |  0.7
    D | 0.4 | 0.2 | 0.7 |  1.0
    
    Run Code Online (Sandbox Code Playgroud)

    方阵可以是任何尺寸.我想获得最大化集群中元素之间的值的集群(我不知道有多少).即上面的例子我应该得到两个集群:

    1. A,C,D

    原因是因为C&D在它们之间具有最高价值,而A&C也具有它们之间的最高价值.

    项目只能位于一个群集中.

    召回对于这个问题并不重要,但精确度非常重要.输出三个簇是可以接受的:1)B,2)A,3)C,D.但是输出任何其中B与另一个元素在一个簇中的解决方案是不可接受的.

    我认为对角线(1.0)令我感到困惑.我的数据保证至少有一个2+元素的集群,我想在不牺牲精度的情况下找到尽可能多的集群.

    我将不得不在Python中实现它.

    python math cluster-analysis data-mining scikit-learn

    16
    推荐指数
    1
    解决办法
    1万
    查看次数

    do_one(nmeth)出错:外部函数调用中的NA/NaN/Inf(arg 1)

    我有一个包含数字的数据表("norm") - 至少我能看到的 - 以下形式的规范化值:

    表格的截图

    当我执行

    k <- kmeans(norm,center=3)
    
    Run Code Online (Sandbox Code Playgroud)

    我收到以下错误:

    Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
    
    Run Code Online (Sandbox Code Playgroud)

    你能帮助我吗?谢谢!

    r cluster-analysis machine-learning data-mining k-means

    16
    推荐指数
    2
    解决办法
    4万
    查看次数

    用于图像模式识别的java框架?

    我正在寻找一个Java框架来帮助一些特定于图像的数据挖掘.我们有一组历史图像,我想分类和分类.我希望找到像weka http://www.cs.waikato.ac.nz/ml/weka/或Marsyas http://marsyas.sness.net这样的东西,但更具体的是筛选图像数据以找到模式.有什么建议?

    java image-recognition data-mining

    15
    推荐指数
    2
    解决办法
    3万
    查看次数

    最佳数据挖掘数据库

    我是一个偶尔的Python程序员,到目前为止只使用MYSQL或SQLITE数据库.我是一家小公司的计算机人员,我已经开始了一个新的项目,我认为这是时候尝试新的数据库.

    销售部门每周进行一次CSV转储,我需要制作一个小型脚本应用程序,允许人们组成其他部门混合信息,主要是链接记录.我已经解决了所有这些问题,我的问题是速度,我只是使用纯文本文件而且毫不奇怪它很慢.

    我想过使用mysql,但后来我需要在每个桌面安装mysql,sqlite更容易,但速度很慢.我不需要一个完整的关系数据库,只需要在适当的时间内使用大量数据.

    更新:我想我的数据库使用情况并不是很详细,因此严重地解释了我的问题.我正在读取所有数据〜900 Megas或更多,从csv到Python字典,然后使用它.我的问题是存储并且主要是快速读取数据.

    非常感谢!

    python database data-mining nosql

    15
    推荐指数
    2
    解决办法
    1万
    查看次数

    检索人口密度数据

    我需要弄清楚某个地点是否被视为城市或乡村.我认为最好的方法是查看城市/州或省/国家组合的人口密度.

    踢球者是我们将其用于数据挖掘.通常,可以执行此操作的映射API要求每个请求必须响应单个用户操作.这不符合标准......使用Web服务,我们将为任何单个用户操作进行数百次Web服务调用.所以我认为我们不能真正使用谷歌地图API这样的东西.

    问题是,什么是可用的?是否有可以下载的数据库,我可以使用它来检索这些数据,或实际允许数据挖掘的Web服务?我使用PHP,虽然编程语言并不重要.我敢肯定,如果我能获得数据,我可以使用PHP.

    database gis geocoding data-mining population

    15
    推荐指数
    2
    解决办法
    4678
    查看次数

    Sharkscope或PTR数据究竟是如何挖掘所有这些手的?

    我很想知道这个过程是如何运作的.这些网站(http://www.sharkscope.comhttp://www.pokertableratings.com)的数据每天都来自安全的扑克网络,如PokerStars和Full Tilt.

    他们是否有一个服务器场运行应用程序,打开数百个表(窗口),然后以某种方式蜘蛛/数据正在播放的手?

    这是如何工作的,编程明智?

    poker data-mining

    15
    推荐指数
    2
    解决办法
    1万
    查看次数

    将MIT-BIH心律失常心电图数据库加载到MATLAB上

    我正在使用涉及模式识别的神经网络进行ECG信号处理.由于我需要从Matlab收集所有数据以将其用作测试信号,我发现很难将其加载到Matlab上.我在这里使用MIT心律失常数据库.

    需要将信号编入索引并以Matlab兼容格式存储为数据结构.目前,该信号是在.atr.dat格式.

    如何将MIT-BIH心律失常数据库加载到Matlab上?

    database matlab signals signal-processing data-mining

    15
    推荐指数
    1
    解决办法
    4万
    查看次数

    在机器学习中使用反馈或强化?

    我正在尝试解决一些分类问题.似乎许多经典方法遵循类似的范例.也就是说,训练具有一些训练集的模型,而不是使用它来预测新实例的类标签.

    我想知道是否有可能在范式中引入一些反馈机制.在控制理论中,引入反馈回路是提高系统性能的有效方法.

    目前我想到的是一种直接的方法,首先我们从一组初始实例开始,然后用它们训练模型.然后,每次模型做出错误预测时,我们都会将错误的实例添加到训练集中.这与盲目扩大训练集不同,因为它更具针对性.这可以看作是控制理论语言中的某种负反馈.

    是否有任何关于反馈方法的研究?谁能解开一些光明?

    machine-learning data-mining

    15
    推荐指数
    2
    解决办法
    8169
    查看次数