昨天我和一位同事讨论过他使用SSIS(或类似的东西)用SSIS包做一些非常酷的事情的情况,他以"Reginald Williams博士"的名义传递了这个名字.并且基于一些加权方案,该系统足够聪明,可以弄清楚如何对其进行标记并将其存储在数据库中作为"Salutation- First Name - Last Name - Suffix".他抛出了一些流行语,如BI,SSIS,ETL和数据挖掘.我真的想要更多信息,但甚至不知道从哪里开始询问.
我是一名.Net开发人员,精通C#,Vb.Net,WPF等......但是我不知道这些技术是什么,如何将它们添加到我的技能组中,以及它是否是我真的应该关注.任何和所有方向都会有所帮助.
经过一些研究,我在MATLAB中找到了两个函数来完成任务:
cvpartition 统计工具箱中的功能crossvalind 生物信息学工具箱中的功能现在我用它cvpartition来创建n倍交叉验证子集,以及统计工具箱中的Dataset/ Nominalclasses.所以我只是想知道两者之间的区别和各自的优缺点是什么?
测量杂质有三种方法:



每种方法有哪些差异和适当的用例?
我想澄清潜在的Dirichlet分配(LDA)与文档聚类的通用任务之间的关系.
LDA分析倾向于输出每个文档的主题比例.如果我的理解是正确的,这不是文档聚类的直接结果.但是,我们可以将此概率比例视为每个文档的特征代表.之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法.
我的理解是否正确?谢谢.
我想模糊集群一组工作. 工作属性是:
我的问题是:如何计算不同工作之间的距离?
例如job1(程序员,计算机科学,(java,.net,责任),1500,3)
和job2(测试员,bs计算机科学,(黑白盒测试),1200,1)
PS:我是数据挖掘集群的初学者,我非常感谢你的帮助.
我正在使用OpenNLP的NameFinder API示例文档.初始化名称查找器后,文档使用以下代码作为输入文本:
for (String document[][] : documents) {
for (String[] sentence : document) {
Span nameSpans[] = nameFinder.find(sentence);
// do something with the names
}
nameFinder.clearAdaptiveData()
}
Run Code Online (Sandbox Code Playgroud)
然而,当我把它带入eclipse时,'documents'(而不是'document')变量给我一个错误,说变量文件无法解析.使用'documents'数组变量引用的文档是什么?我是否需要初始化一个名为'documents'的数组,该数组包含txt文件以便此错误消失?
谢谢您的帮助.
我试图分析英国周期事故的数据,以找到统计黑点.以下是来自其他网站的数据示例.http://www.cycleinjury.co.uk/map
我目前正在使用SQLite来实现~100k存储lat/lon位置.我想将附近的地点组合在一起.此任务称为群集分析.
我想通过忽略孤立的事件来简化数据集,而只是显示在一个小区域内发生多个事故的集群的起源.
我需要克服3个问题.
性能 - 如何确保快速找到附近的点.我应该使用的SQLite的实现了的R树的例子吗?
链条 - 如何避免拾取附近的链条?
密度 - 如何考虑周期人口密度?伦敦的自行车运动员的人口密度远远超过布里斯托尔,因此伦敦似乎有更多的支持者.
我想避免像这样的'链'场景:

相反,我想找到集群:

伦敦截图(我手绘了一些集群)......

布里斯托尔截图 - 密度低得多 - 如果不考虑相对密度,在该区域上运行的相同程序可能找不到任何黑点.

任何指针都会很棒!
我最近一直在自我研究期望最大化,并在这个过程中抓住了一些简单的例子:
http://cs.dartmouth.edu/~cs104/CS104_11.04.22.pdf 投掷时有3个硬币0,1和2,P0,P1和P2概率落在头上.投掷硬币0,如果结果是头,投掷硬币1三次,否则投掷硬币2三次.由硬币1和2产生的观察数据如下:HHH,TTT,HHH,TTT,HHH.隐藏数据是硬币0的结果.估计P0,P1和P2.
http://ai.stanford.edu/~chuongdo/papers/em_tutorial.pdf 有两个硬币A和B,PA和PB是投掷时落在头上的概率.每轮,随机选择一枚硬币,然后扔10次,然后记录结果.观察到的数据是由这两个硬币提供的折腾结果.但是,我们不知道为特定回合选择了哪一枚硬币.估计PA和PB.
虽然我可以得到计算,但我无法将它们的解决方式与原始的EM理论联系起来.具体来说,在两个例子的M-Step期间,我看不出它们是如何最大化任何东西的.它们似乎正在重新计算参数,不知何故,新参数比旧参数更好.而且,两个E-Steps甚至看起来都不相似,更不用说原始理论的E-Step了.
那么这些例子究竟是如何运作的呢?
algorithm computer-science machine-learning data-mining expectation-maximization
当我运行scikit的dbscan算法时,我得到了内存错误.我的数据大约是20000*10000,它是一个二进制矩阵.
(也许它不适合使用带有这种矩阵的DBSCAN.我是机器学习的初学者.我只是想找到一个不需要初始簇号的簇方法)
无论如何,我发现scikit的稀疏矩阵和特征提取.
http://scikit-learn.org/dev/modules/feature_extraction.html http://docs.scipy.org/doc/scipy/reference/sparse.html
但我仍然不知道如何使用它.在DBSCAN的规范中,没有关于使用稀疏矩阵的指示.不允许吗?
如果有人知道如何在DBSCAN中使用稀疏矩阵,请告诉我.或者你可以告诉我一个更合适的集群方法.
cluster-analysis machine-learning data-mining dbscan scikit-learn
我有一个由70,000个数值组成的数据集,表示从0到50的距离,我想聚集这些数字; 然而,如果我正在尝试经典的聚类方法,那么我将不得不建立一个70,000X70,000距离矩阵,表示我的数据集中每两个数字之间的距离,这将不适合内存,所以我想知道是否有是否有任何聪明的方法来解决这个问题,而无需进行分层抽样?我还尝试过R中的bigmemory和大分析库,但仍然无法将数据放入内存中