维数减少究竟意味着什么?
我搜索了它的含义,我发现它意味着将原始数据转换为更有用的形式.那么以有用的形式提供数据有什么好处,我的意思是我如何在实际生活中使用它(应用程序)?
artificial-intelligence terminology machine-learning data-mining
我们有一个架构,我们为他们的网站(互联网商家)提供每个客户类似商业智能的服务.现在,我需要在内部分析这些数据(用于算法改进,性能跟踪等等),这些数据可能非常繁重:我们有多达数百万行/客户/天,我可能想知道有多少查询我们在上个月,每周比较等等......即使不是更多,也是数十亿条目的顺序.
目前的工作方式非常标准:每日脚本扫描数据库,并生成大型CSV文件.我不喜欢这个解决方案有几个原因:
虽然我在处理大量科学数据集方面有一些经验,但就传统的RDBM而言,我是一个完全的初学者.似乎使用面向列的数据库进行分析可能是一种解决方案(分析不需要我们在app数据库中拥有的大部分数据),但我想知道有哪些其他选项可用于此类问题.
我正在尝试编写一个程序,将文本(文章)作为输入并输出该文本的极性,将其置于正面或负面的情绪中.我已经广泛阅读了不同的方法,但我仍然感到困惑.我读过许多技术,如分类器和机器学习.我想指导和明确指示从哪里开始.例如,我有一个需要数据集的分类器,但我如何将文本(文章)转换为分类器的数据集.如果有人能告诉我解决这个问题的逻辑顺序.提前致谢!PS:请提及任何相关算法或开源实现
问候,迈克
nlp artificial-intelligence classification machine-learning data-mining
我有一个数据集.该集合的每个元素由数字和分类变量组成.分类变量是名义上的和有序的.该数据集中有一些自然结构.通常,专家使用他们的"专家知识"对我的数据集进行聚类,但我希望自动化这个聚类过程.
大多数聚类算法使用对象之间的距离(Euclidean,Mahalanobdis等)将它们分组.但很难找到混合数据类型的一些合理指标,即我们找不到"玻璃"和"钢铁"之间的距离.所以我得出结论,我必须使用条件概率 P(feature = 'something' | Class)和一些依赖于它们的效用函数.对于分类变量是合理的,并且假设它们正常分布,它对数值变量很好.
所以我很清楚像K-means这样的算法不会产生好的结果.
这时我尝试使用COBWEB算法,这完全符合我使用条件概率的想法.但是我遇到了另一个障碍:如果不是不可能的话,聚类的结果很难解释.因此,我希望获得类似于描述每个聚类(例如if feature1 = 'a' and feature2 in [30, 60], it is cluster1)的一组规则,例如用于分类的决策树.
所以,我的问题是:
是否存在适用于混合数据类型的现有聚类算法,并产生可理解的(对于人类而言合理的)聚类描述.
附加信息:
据我所知,我的任务是在概念聚类领域.由于研究领域的原因,我不能像它所建议的那样定义一个相似性函数(它作为呐喊项目的最终目标) - 它在形式化方面非常复杂和无情.据我所知,最合理的方法是COBWEB中使用的方法,但我不确定如何调整它,所以我可以得到一个不可靠的集群描述.
决策树
正如建议的那样,我尝试在聚类输出上训练决策树,从而将聚类描述作为一组规则.但不幸的是,对这个规则的解释几乎和原始聚类输出一样难.根节点中只有少数第一级规则确实没有任何意义:更接近叶子 - 我们没有意义.其次,这些规则与任何专业知识都不相符.
所以,我得出的结论是聚类是一个黑盒子,不值得尝试解释它的结果.
也
我有一个有趣的想法是以某种方式修改"回归决策树"算法:而不是计算组内方差,计算类别效用函数并将其用作拆分标准.因此,我们应该有一个带有叶子集群和集群描述的决策树.但我没有尝试这样做,我不确定准确性和其他一切.
algorithm computer-science cluster-analysis machine-learning data-mining
我想在Weka的数据集(模型)中使用FP-Growth关联规则算法.
不幸的是,这个算法是灰色的.我必须满足哪些先决条件才能使用它?
我对python mining数据集感兴趣,这些数据集太大而无法放在RAM中但只能放在一个HD中.
据我所知,我可以将数据导出为hdf5文件pytables.还numexpr允许一些基本的核外计算.
接下来会发生什么?尽可能进行小批量处理,并且在不能使用迷你批处理时依靠线性代数结果来分解计算?
还是有一些我错过的更高级别的工具?
感谢您的见解,
我正在处理一些大型交易数据.我一直在使用read.transactions和apriori(arules包的一部分)来进行频繁的项目配对.
我的问题是:当生成规则时(使用"inspect()"),我可以在R控制台中轻松查看它们.现在我手动将结果复制到文本文件中,然后在excel中保存并打开.我想使用write.csv或类似的东西保存生成的规则,但是当我尝试时,我收到一个错误,数据无法强制转换为data.frame.
有没有人有经验在R中成功做到这一点?
我想知道k-means聚类算法是否可以进行分类?
如果我做了一个简单的k-means聚类.
假设我有很多数据,我使用k-means聚类,然后得到2个聚类A,B.质心计算方法是欧几里德距离.
左侧的集群A.
集群B在右侧.
所以,如果我有一个新数据.我该怎么办?
再次运行k-means聚类算法,可以得到新数据属于哪个集群?
记录最后一个质心并使用欧氏距离计算来判断新数据属于哪个?
其他方法?
我拼命想要下载Ta-Feng杂货数据集几天,但似乎所有链接都被破坏了.我需要为我的msc论文进行数据挖掘/机器学习研究.我还有微软杂货数据库,比利时商店和Weka的Supermarket.arff.然而在研究中他们说Ta Feng是所有公共数据集中最大和最有趣的.
http://recsyswiki.com/wiki/Grocery_shopping_datasets
我会非常感谢任何帮助:)干杯!
data-mining ×10
algorithm ×2
database ×2
analytics ×1
apriori ×1
arules ×1
dataset ×1
java ×1
k-means ×1
large-data ×1
nlp ×1
numpy ×1
python ×1
r ×1
scalability ×1
terminology ×1
text ×1
weka ×1