标签: data-mining

任何人都可以提供有监督学习和无监督学习的真实案例吗?

我最近研究过有监督学习和无监督学习.从理论上讲,我知道有监督意味着从标记数据集中获取信息而无监督意味着在没有给出任何标签的情况下对数据进行聚类.

但是,问题是我总是感到困惑,以确定在我的学习期间给定的例子是监督学习还是无监督学习.

谁能请一个现实生活中的例子?

machine-learning data-mining unsupervised-learning supervised-learning deep-learning

35
推荐指数
5
解决办法
6万
查看次数

Kmeans不知道集群的数量?

我试图在一组高维数据点(大约50维)上应用k-means,并且想知道是否有任何实现找到最佳簇数.

我记得在某处读取算法通常这样做的方式是使群集间距离最大化并且群集内距离最小化但我不记得我在哪里看到它.如果有人可以指出我讨论这个的任何资源,那将是很棒的.我目前正在使用SciPy进行k-means,但任何相关的库都可以.

如果有其他方法可以实现相同或更好的算法,请告诉我.

python machine-learning data-mining k-means

34
推荐指数
2
解决办法
2万
查看次数

要采用多少主要组件?

我知道主成分分析在矩阵上进行SVD​​,然后生成特征值矩阵.要选择主成分,我们必须只取前几个特征值.现在,我们如何决定我们应该从特征值矩阵中获取的特征值的数量?

machine-learning data-mining svd

33
推荐指数
6
解决办法
5万
查看次数

Python实现的OPTICS(聚类)算法

我正在寻找在Python 中使用OPTICS算法的一个不错的实现.我将用它来形成基于密度的点((x,y)对).

我正在寻找接收(x,y)对并输出簇列表的东西,其中列表中的每个簇包含属于该簇的(x,y)对的列表.

python cluster-analysis machine-learning data-mining optics-algorithm

32
推荐指数
4
解决办法
2万
查看次数

如何找到数据点集群的中心?

假设我在过去的一年中每天都绘制了一架直升机的位置,并提出了以下地图:

地图

任何看到这个的人都可以告诉我这架直升机是在芝加哥以外的.

如何在代码中找到相同的结果?

我正在寻找这样的东西:

$geoCodeArray = array([GET=http://pastebin.com/grVsbgL9]);
function findHome($geoCodeArray) {
    // magic
    return $geoCode;
}
Run Code Online (Sandbox Code Playgroud)

最终生成这样的东西:

地图 - 首页

更新:示例数据集

这是一张包含样本数据集的地图:http://batchgeo.com/map/c3676fe29985f00e1605cd4f86920179

这是一个包含150个地理编码的pastebin:http://pastebin.com/grVsbgL9

以上包含150个地理编码.前50个在靠近芝加哥的几个集群中.其余的分布在全国各地,包括纽约,洛杉矶和旧金山的一些小集群.

我有大约一百万(严重)这样的数据集,我需要迭代并确定最可能的"家".非常感谢您的帮助.

更新2:飞机切换到直升机

飞机概念引起了对物理机场的过多关注.坐标可以在世界的任何地方,而不仅仅是机场.让我们假设它是一架超级直升机,不受物理,燃料或其他任何东西的束缚.它可以降落在它想要的地方.;)

algorithm geocoding cluster-analysis data-mining markerclusterer

32
推荐指数
4
解决办法
9207
查看次数

Scikit-Learn:使用DBSCAN预测新点数

我使用DBSCAN使用Scikit-Learn(Python 2.7)聚集一些数据:

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(random_state=0)
dbscan.fit(X)
Run Code Online (Sandbox Code Playgroud)

但是,我发现没有内置函数(除了"fit_predict"之外)可以将新数据点Y分配给原始数据中标识的簇X.K-means方法有一个"预测"功能,但我希望能够对DBSCAN做同样的事情.像这样的东西:

dbscan.predict(X, Y)
Run Code Online (Sandbox Code Playgroud)

因此密度可以从X推断,但返回值(集群分配/标签)仅适用于Y.从我所知道的,这个功能在R中可用,所以我假设它在某种程度上也可用于Python.我似乎无法找到任何相关的文档.

此外,我已经尝试搜索为什么DBSCAN不能用于标记新数据的原因,但我没有找到任何理由.

cluster-analysis data-mining predict dbscan scikit-learn

30
推荐指数
3
解决办法
1万
查看次数

集群(尤其是字符串集群)如何工作?

我听说过聚类来分组类似的数据.我想知道它在String的特定情况下是如何工作的.

我有一张超过10万字的表.

我想识别具有一些差异的相同单词(例如:)house, house!!, hooouse, HoUse, @house, "house", etc....

需要什么来识别群集中的相似性并对每个单词进行分组?为此更推荐什么算法?

string cluster-analysis data-mining

29
推荐指数
2
解决办法
2万
查看次数

为DBSCAN(R)选择eps和minpts?

我一直在寻找这个问题的答案,所以我希望有人可以帮助我.我在R中的fpc库中使用dbscan.例如,我正在查看USArrests数据集,并在其上使用dbscan,如下所示:

library(fpc)
ds <- dbscan(USArrests,eps=20)
Run Code Online (Sandbox Code Playgroud)

在这种情况下,选择eps仅仅是通过反复试验.但是,我想知道是否有可用于自动选择最佳eps/minpts的功能或代码.我知道有些书建议制作一个与最近邻居的第k个分类距离的图.也就是说,x轴表示"根据到第k个最近邻居的距离排序的点",并且y轴表示"第k个最近邻居距离".

这种类型的绘图有助于为eps和minpts选择合适的值.我希望我已经为某人提供了足够的信息来帮助我.我想张贴一张我的意思,但我仍然是新手,所以暂不发布图像.

r cluster-analysis data-mining dbscan

28
推荐指数
4
解决办法
5万
查看次数

数据挖掘开源工具

我打算开展一个涉及数据挖掘的项目.在我加入之前,我想探索一下允许基于Web的报告的不同数据挖掘工具(最好是开源).在我的场景中,数据将提供给我,所以我不应该抓它.

简而言之,我正在寻找一种工具 - 数据分析,基于Web的报告,提供某种仪表板和挖掘功能.

我曾经参与过微软分析服务和BOXI,最近我一直在寻找Pentaho,这似乎是一个不错的选择.

请分享您对任何此类工具的经验.

干杯

open-source data-mining

27
推荐指数
5
解决办法
2万
查看次数

是什么让k-medoid中的距离测量"比k-means更好"?

我正在阅读k-means聚类和k-medoid聚类之间的区别.

据推测,在k-medoid算法中使用成对距离度量有一个优点,而不是更熟悉的欧几里德距离型度量平方和来评估我们用k均值找到的方差.显然,这种不同的距离度量会以某种方式降低噪音和异常值.

我已经看到了这个说法,但我还没有看到任何关于这一主张背后的数学的理由.

是什么使k-medoid中常用的成对距离测量更好?更准确地说,缺乏平方项如何使k-medoids具有与取中位数概念相关的理想属性?

cluster-analysis machine-learning data-mining k-means

26
推荐指数
3
解决办法
2万
查看次数