标签: data-mining

我正在尝试编写一个程序,将文本(文章)作为输入并输出该文本的极性,将其置于正面或负面的情绪中.我已经广泛阅读了不同的方法,但我仍然感到困惑.我读过许多技术,如分类器和机器学习.我想指导和明确指示从哪里开始.例如,我有一个需要数据集的分类器,但我如何将文本(文章)转换为分类器的数据集.如果有人能告诉我解决这个问题的逻辑顺序.提前致谢!PS:请提及任何相关算法或开源实现

问候,迈克

nlp artificial-intelligence classification machine-learning data-mining

Mik*_*e G

lucky-day

14
推荐指数

1
解决办法

3969
查看次数

可理解的聚类

我有一个数据集.该集合的每个元素由数字和分类变量组成.分类变量是名义上的和有序的.该数据集中有一些自然结构.通常,专家使用他们的"专家知识"对我的数据集进行聚类,但我希望自动化这个聚类过程.

大多数聚类算法使用对象之间的距离(Euclidean,Mahalanobdis等)将它们分组.但很难找到混合数据类型的一些合理指标,即我们找不到"玻璃"和"钢铁"之间的距离.所以我得出结论,我必须使用条件概率 P(feature = 'something' | Class)和一些依赖于它们的效用函数.对于分类变量是合理的,并且假设它们正常分布,它对数值变量很好.

所以我很清楚像K-means这样的算法不会产生好的结果.

这时我尝试使用COBWEB算法,这完全符合我使用条件概率的想法.但是我遇到了另一个障碍:如果不是不可能的话,聚类的结果很难解释.因此,我希望获得类似于描述每个聚类(例如if feature1 = 'a' and feature2 in [30, 60], it is cluster1)的一组规则,例如用于分类的决策树.

所以,我的问题是:

是否存在适用于混合数据类型的现有聚类算法,并产生可理解的(对于人类而言合理的)聚类描述.

附加信息:

据我所知,我的任务是在概念聚类领域.由于研究领域的原因,我不能像它所建议的那样定义一个相似性函数(它作为呐喊项目的最终目标) - 它在形式化方面非常复杂和无情.据我所知,最合理的方法是COBWEB中使用的方法,但我不确定如何调整它,所以我可以得到一个不可靠的集群描述.

决策树

正如建议的那样,我尝试在聚类输出上训练决策树,从而将聚类描述作为一组规则.但不幸的是,对这个规则的解释几乎和原始聚类输出一样难.根节点中只有少数第一级规则确实没有任何意义:更接近叶子 - 我们没有意义.其次,这些规则与任何专业知识都不相符.

所以,我得出的结论是聚类是一个黑盒子,不值得尝试解释它的结果.

也

我有一个有趣的想法是以某种方式修改"回归决策树"算法:而不是计算组内方差,计算类别效用函数并将其用作拆分标准.因此,我们应该有一个带有叶子集群和集群描述的决策树.但我没有尝试这样做,我不确定准确性和其他一切.

algorithm computer-science cluster-analysis machine-learning data-mining

Art*_*ykh

2012 09-20