标签: data-mining

具有离散和连续属性的聚类算法?

有没有人知道在离散和连续属性上执行聚类的好算法?我正在研究识别一组类似客户的问题,每个客户都有离散和连续的属性(思考客户类型,该客户产生的收入金额,地理位置等).

传统上像K-means或EM这样的算法用于连续属性,如果我们混合了连续属性和离散属性呢?

algorithm artificial-intelligence data-mining

9
推荐指数
1
解决办法
2488
查看次数

如何存储多年值100 x 25 Hz的时间序列--Sql Server或timeseries数据库

我正在尝试确定存储100个25 Hz浮点数据通道的可能方法.这将导致每年78,840,000,000个数据点.

理想情况下,所有这些数据都可以有效地用于Web站点和工具,例如Sql Server报告服务.我们知道关系数据库在处理这种规模的时间序列方面很差,但尚未确定一个令人信服的时间序列特定数据库.

关键问题是压缩以实现高效存储,同时还提供简单有效的查询,报告和数据挖掘.

  • 你会如何处理这些数据?

  • Sql Server中是否有可以处理如此大量时间序列数据的功能或表设计?

  • 如果没有,是否有任何第三方扩展Sql服务器有效处理庞大的时间序列?

  • 如果没有,是否有专门处理此类数据但通过Sql,.Net和Sql Reporting服务提供自然访问的时间序列数据库?

谢谢!

database sql-server data-mining reporting-services

9
推荐指数
1
解决办法
2522
查看次数

数据挖掘中的"相似性"

在数据挖掘领域,是否有一个名为"相似性"的特定子学科?如果是的话,它会处理什么.任何示例,链接,参考都会有所帮助.

此外,作为该领域的新手,我希望社群对数据挖掘和人工智能的密切关系有所了解.他们是同义词,是另一个的子集吗?

提前感谢您分享您的知识.

artificial-intelligence similarity data-mining

9
推荐指数
1
解决办法
2360
查看次数

语义网络的概率生成

我研究了一些简单的语义网络实现和解析自然语言的基本技术.但是,我没有看到很多项目试图弥合两者之间的差距.

例如,考虑对话框:

"the man has a hat"
"he has a coat"
"what does he have?" => "a hat and coat"
Run Code Online (Sandbox Code Playgroud)

基于上述句子的语法树解析的简单语义网络可能看起来像:

the_man = Entity('the man')
has = Entity('has')
a_hat = Entity('a hat')
a_coat = Entity('a coat')
Relation(the_man, has, a_hat)
Relation(the_man, has, a_coat)
print the_man.relations(has) => ['a hat', 'a coat']
Run Code Online (Sandbox Code Playgroud)

然而,该实现假设先前知道文本段"人"和"他"指的是同一网络实体.

您将如何设计一个"学习"语义网络各段之间关系的系统?我习惯于在创建一个简单的属性/值对训练集的基础上考虑ML/NL问题,并将其提供给分类或回归算法,但我无法以这种方式解决这个问题.

最终,我似乎需要在语义网络之上叠加概率,但这会使实现变得非常复杂.沿着这些路线有没有现有技术?我看过一些类似于NLTK和OpenNLP的库,虽然他们有很好的工具来处理符号逻辑和解析自然语言,但似乎没有任何一种可用的框架可以将一个转换为另一个.

nlp machine-learning data-mining

9
推荐指数
1
解决办法
722
查看次数

使用SQL查询进行数据挖掘操​​作(模糊Apriori算法) - 如何使用SQL对其进行编码?

所以我有这个表:

Trans_ID    Name    Fuzzy_Value    Total_Item  
100          I1  0.33333333        3  
100          I2  0.33333333        3  
100          I5  0.33333333        3  
200          I2  0.5               2  
200          I5  0.5               2  
300          I2  0.5               2  
300          I3  0.5               2  
400          I1  0.33333333        3  
400          I2  0.33333333        3  
400          I4  0.33333333        3  
500          I1  0.5               2  
500          I3  0.5               2  
600          I2  0.5               2  
600          I3  0.5               2  
700          I1  0.5               2  
700          I3  0.5               2  
800          I1  0.25              4  
800          I2  0.25              4  
800          I3  0.25 …
Run Code Online (Sandbox Code Playgroud)

sql data-mining apriori

9
推荐指数
1
解决办法
2782
查看次数

比较/聚类轨迹((x,y)点的GPS数据)和挖掘数据

我有两个关于分析GPS数据集的问题.

1)提取轨迹我有一个巨大的数据库,记录了表格的GPS坐标(latitude, longitude, date-time).根据连续记录的日期时间值,我试图提取人所遵循的所有轨迹/路径.例如; 从时间上说M,这些(x,y)配对不断变化,直到时间N.之后N,(x,y)成对的变化减少,此时我得出结论,从时间M到的路径N可以称为轨迹.在提取轨迹时,这是一个不错的方法吗?您可以建议任何众所周知的方法/方法/算法吗?是否有任何数据结构或格式建议我以有效的方式维护这些点?也许,对于每个轨迹,确定速度和加速度会有用吗?

2)挖掘轨迹一旦我跟踪了所有轨迹/采取了路径,我该如何比较/聚类它们?我想知道起点或终点是否相似,那么中间路径如何比较?

如何比较2条路径/路线,并得出它们是否相似的结论.此外; 如何将类似的路径聚集在一起?

如果你能指点我的研究或类似的东西,我将非常感激.

开发将使用Python,但欢迎各种图书馆建议.

提前致谢.

python gis algorithm gps data-mining

9
推荐指数
1
解决办法
5538
查看次数

Java支持PMML

我是PMML的新手:Predictive Model Markup Language(www.dmg.org),我想知道是否有某种Java支持(开源/专业)用于创建/解析PMML文件.

最初,我只考虑从Java环境以编程方式创建/解析PMML文件的可能性.

我一直在"谷歌搜索",我发现了几种可能性:

开源:

来自Java.

  • JDM.javax.datamining.好像死了?有人有更多信息?

专业的.

DIY

  • 使用XML Java库并自己构建PMML文件的解析器/编写器

我感谢您的所有意见.

提前致谢

奥斯卡

java xml data-mining prediction pmml

9
推荐指数
1
解决办法
3256
查看次数

聚类和matlab

我正在尝试从KDD 1999杯数据集中收集一些数据

文件的输出如下所示:

0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.
Run Code Online (Sandbox Code Playgroud)

以该格式提供48,000种不同的记录.我已经清理了数据并删除了仅保留数字的文本.输出现在看起来像这样:

在此输入图像描述

我在excel中创建了一个逗号分隔文件并保存为csv文件,然后在matlab中从csv文件创建了一个数据源,我尝试通过matlab中的fcm工具箱运行它(findcluster输出38个数据类型,预计有38列).

然而,群集看起来不像群集,或者它不接受和按照我需要的方式工作.

任何人都可以帮助找到集群吗?我是matlab的新手,所以没有任何经验,我也是新的聚类.

方法:

  1. 选择簇数(K)
  2. 初始化质心(从数据集中随机选择的K个模式)
  3. 将每个模式分配给具有最接近质心的群集
  4. 计算每个簇的平均值作为其新的质心
  5. 重复步骤3,直到满足停止条件(没有模式移动到另一个集群)

这就是我想要实现的目标:

在此输入图像描述

这就是我得到的:

在此输入图像描述

load kddcup1.dat
plot(kddcup1(:,1),kddcup1(:,2),'o')  
[center,U,objFcn] = fcm(kddcup1,2);
Iteration count = 1, obj. fcn = 253224062681230720.000000
Iteration count = 2, obj. fcn = 241493132059137410.000000
Iteration count = 3, obj. fcn = 241484544542298110.000000
Iteration count = 4, obj. fcn = 241439204971005280.000000
Iteration count = 5, obj. fcn = 241090628742523840.000000
Iteration count = 6, obj. fcn = 239363408546874750.000000
Iteration count = 7, obj. fcn = 238580863900727680.000000
Iteration count …
Run Code Online (Sandbox Code Playgroud)

matlab cluster-analysis machine-learning fuzzy data-mining

9
推荐指数
1
解决办法
2765
查看次数

在R中聚类非常大的数据集

我有一个由70,000个数值组成的数据集,表示从0到50的距离,我想聚集这些数字; 然而,如果我正在尝试经典的聚类方法,那么我将不得不建立一个70,000X70,000距离矩阵,表示我的数据集中每两个数字之间的距离,这将不适合内存,所以我想知道是否有是否有任何聪明的方法来解决这个问题,而无需进行分层抽样?我还尝试过R中的bigmemory和大分析库,但仍然无法将数据放入内存中

r cluster-analysis machine-learning data-mining bigdata

9
推荐指数
2
解决办法
2万
查看次数

应该使用哪些FFT描述符作为实现分类或聚类算法的特征?

我有一些地理轨迹被采样来分析,我计算了空间和时间维度的数据直方图,为每个空间元素产生了一个基于时域的特征.我想执行离散FFT以将基于时域的特征转换为基于频域的特征(我认为可能更强大),然后进行一些分类或聚类算法.

但我不确定使用什么描述符作为基于频域的特征,因为有信号的振幅频谱,功率谱和相位谱,我已经阅读了一些参考文献,但仍然对其重要性感到困惑.当在基于频域的特征向量(欧几里得距离?余弦距离?高斯函数?Chi-kernel或其他?)上执行学习算法时,应使用什么距离(相似度)函数作为度量?

希望有人给我一些线索或一些我可以参考的材料,谢谢〜

编辑

感谢@DrKoch,我选择了一个具有最大L-1规范的空间元素,并log power spectrum在python中绘制它,它确实显示了一些突出的峰值,下面是我的代码和图
import numpy as np
import matplotlib.pyplot as plt
sp = np.fft.fft(signal)
freq = np.fft.fftfreq(signal.shape[-1], d = 1.) # time sloth of histogram is 1 hour
plt.plot(freq, np.log10(np.abs(sp) ** 2))
plt.show()
Run Code Online (Sandbox Code Playgroud)

对数功率谱

我有几个微不足道的问题需要确保我完全理解你的建议:

  • 在你的第二个建议中,你说"忽略所有这些价值观".

    你的意思是水平线代表阈值,它下面的所有值应该分配给零值吗?
  • "你可以搜索两个,三个最大的山峰,并使用它们的位置和可能的宽度作为'特征'进行进一步分类."

    我对"位置"和"宽度"的含义有点困惑,"位置"是指功率谱的对数值(y轴),"宽度"是指频率(x轴)?如果是这样,如何将它们组合在一起作为特征向量并比较"相似频率和类似宽度"的两个特征向量?

编辑

我换成np.fft.fftnp.fft.rfft计算正的部分和情节两个功率谱和日志功率谱.

码:
f, axarr = plt.subplot(2, sharex = True)
axarr[0].plot(freq, np.abs(sp) ** 2)
axarr[1].plot(freq, np.log10(np.abs(sp) ** 2))
plt.show()
Run Code Online (Sandbox Code Playgroud) 数字:

功率谱和对数功率谱 如果我错了,请纠正我:

我认为我应该在第一个数字中保留最后四个峰值power …

fft machine-learning similarity data-mining feature-extraction

9
推荐指数
1
解决办法
8175
查看次数