标签: data-mining

有人可以解释数据挖掘,SSIS,BI,ETL和其他相关技术吗?

昨天我和一位同事讨论过他使用SSIS(或类似的东西)用SSIS包做一些非常酷的事情的情况,他以"Reginald Williams博士"的名义传递了这个名字.并且基于一些加权方案,该系统足够聪明,可以弄清楚如何对其进行标记并将其存储在数据库中作为"Salutation- First Name - Last Name - Suffix".他抛出了一些流行语,如BI,SSIS,ETL和数据挖掘.我真的想要更多信息,但甚至不知道从哪里开始询问.

我是一名.Net开发人员,精通C#,Vb.Net,WPF等......但是我不知道这些技术是什么,如何将它们添加到我的技能组中,以及它是否是我真的应该关注.任何和所有方向都会有所帮助.

ssis data-mining business-intelligence

9
推荐指数
1
解决办法
8113
查看次数

在MATLAB中将数据拆分为训练/测试数据集?

经过一些研究,我在MATLAB中找到了两个函数来完成任务:

现在我用它cvpartition来创建n倍交叉验证子集,以及统计工具箱中的Dataset/ Nominalclasses.所以我只是想知道两者之间的区别和各自的优缺点是什么?

matlab data-mining

9
推荐指数
1
解决办法
2万
查看次数

决策树学习和杂质

测量杂质有三种方法:

熵

基尼指数

分类错误

每种方法有哪些差异和适当的用例?

machine-learning data-mining decision-tree random-forest

9
推荐指数
1
解决办法
6755
查看次数

潜在Dirichlet分配与文档聚类之间的关系

我想澄清潜在的Dirichlet分配(LDA)与文档聚类的通用任务之间的关系.

LDA分析倾向于输出每个文档的主题比例.如果我的理解是正确的,这不是文档聚类的直接结果.但是,我们可以将此概率比例视为每个文档的特征代表.之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法.

我的理解是否正确?谢谢.

nlp machine-learning data-mining text-mining lda

9
推荐指数
1
解决办法
1829
查看次数

混合变量(分类和数字)距离函数

我想模糊集群一组工作. 工作属性是:

  1. 分类:职位,文凭,技能
  2. 数值:薪水,多年的经验

我的问题是:如何计算不同工作之间的距离?
例如job1(程序员,计算机科学,(java,.net,责任),1500,3)
job2(测试员,bs计算机科学,(黑白盒测试),1200,1)

PS:我是数据挖掘集群的初学者,我非常感谢你的帮助.

cluster-analysis distance data-mining

9
推荐指数
1
解决办法
7744
查看次数

OpenNLP名称查找器

我正在使用OpenNLP的NameFinder API示例文档.初始化名称查找器后,文档使用以下代码作为输入文本:

for (String document[][] : documents) {

  for (String[] sentence : document) {
    Span nameSpans[] = nameFinder.find(sentence);
    // do something with the names
  }

  nameFinder.clearAdaptiveData()
}
Run Code Online (Sandbox Code Playgroud)

然而,当我把它带入eclipse时,'documents'(而不是'document')变量给我一个错误,说变量文件无法解析.使用'documents'数组变量引用的文档是什么?我是否需要初始化一个名为'documents'的数组,该数组包含txt文件以便此错误消失?

谢谢您的帮助.

apache nlp data-mining opennlp

9
推荐指数
1
解决办法
6957
查看次数

如何对存储在SQL中的纬度和经度位置进行分组

我试图分析英国周期事故的数据,以找到统计黑点.以下是来自其他网站的数据示例.http://www.cycleinjury.co.uk/map

我目前正在使用SQLite来实现~100k存储lat/lon位置.我想将附近的地点组合在一起.此任务称为群集分析.

我想通过忽略孤立的事件来简化数据集,而只是显示在一个小区域内发生多个事故的集群的起源.

我需要克服3个问题.

  1. 性能 - 如何确保快速找到附近的点.我应该使用的SQLite的实现了的R树的例子吗?

  2. 链条 - 如何避免拾取附近的链条?

  3. 密度 - 如何考虑周期人口密度?伦敦的自行车运动员的人口密度远远超过布里斯托尔,因此伦敦似乎有更多的支持者.

我想避免像这样的'链'场景:

在此输入图像描述

相反,我想找到集群:

在此输入图像描述

伦敦截图(我手绘了一些集群)......

在此输入图像描述

布里斯托尔截图 - 密度低得多 - 如果不考虑相对密度,在该区域上运行的相同程序可能找不到任何黑点.

在此输入图像描述

任何指针都会很棒!

sql sqlite cluster-analysis machine-learning data-mining

9
推荐指数
1
解决办法
4946
查看次数

期望最大化硬币抛出例子

我最近一直在自我研究期望最大化,并在这个过程中抓住了一些简单的例子:

http://cs.dartmouth.edu/~cs104/CS104_11.04.22.pdf 投掷时有3个硬币0,1和2,P0,P1和P2概率落在头上.投掷硬币0,如果结果是头,投掷硬币1三次,否则投掷硬币2三次.由硬币1和2产生的观察数据如下:HHH,TTT,HHH,TTT,HHH.隐藏数据是硬币0的结果.估计P0,P1和P2.

http://ai.stanford.edu/~chuongdo/papers/em_tutorial.pdf 有两个硬币A和B,PA和PB是投掷时落在头上的概率.每轮,随机选择一枚硬币,然后扔10次,然后记录结果.观察到的数据是由这两个硬币提供的折腾结果.但是,我们不知道为特定回合选择了哪一枚硬币.估计PA和PB.

虽然我可以得到计算,但我无法将它们的解决方式与原始的EM理论联系起来.具体来说,在两个例子的M-Step期间,我看不出它们是如何最大化任何东西的.它们似乎正在重新计算参数,不知何故,新参数比旧参数更好.而且,两个E-Steps甚至看起来都不相似,更不用说原始理论的E-Step了.

那么这些例子究竟是如何运作的呢?

algorithm computer-science machine-learning data-mining expectation-maximization

9
推荐指数
2
解决办法
9531
查看次数

在scikit-learn中,DBSCAN可以使用稀疏矩阵吗?

当我运行scikit的dbscan算法时,我得到了内存错误.我的数据大约是20000*10000,它是一个二进制矩阵.

(也许它不适合使用带有这种矩阵的DBSCAN.我是机器学习的初学者.我只是想找到一个不需要初始簇号的簇方法)

无论如何,我发现scikit的稀疏矩阵和特征提取.

http://scikit-learn.org/dev/modules/feature_extraction.html http://docs.scipy.org/doc/scipy/reference/sparse.html

但我仍然不知道如何使用它.在DBSCAN的规范中,没有关于使用稀疏矩阵的指示.不允许吗?

如果有人知道如何在DBSCAN中使用稀疏矩阵,请告诉我.或者你可以告诉我一个更合适的集群方法.

cluster-analysis machine-learning data-mining dbscan scikit-learn

9
推荐指数
2
解决办法
4032
查看次数

在R中聚类非常大的数据集

我有一个由70,000个数值组成的数据集,表示从0到50的距离,我想聚集这些数字; 然而,如果我正在尝试经典的聚类方法,那么我将不得不建立一个70,000X70,000距离矩阵,表示我的数据集中每两个数字之间的距离,这将不适合内存,所以我想知道是否有是否有任何聪明的方法来解决这个问题,而无需进行分层抽样?我还尝试过R中的bigmemory和大分析库,但仍然无法将数据放入内存中

r cluster-analysis machine-learning data-mining bigdata

9
推荐指数
2
解决办法
2万
查看次数