Kri*_*aps 191 terminology classification cluster-analysis machine-learning data-mining
有人能解释数据挖掘中分类和聚类之间的区别吗?
如果可以,请举两个例子来理解主要想法.
Fel*_*ing 238
通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类.
群集尝试对一组对象进行分组,并查找对象之间是否存在某种关系.
M.A*_*oud 57
如果您向任何数据挖掘或机器学习人员提出此问题,他们将使用术语监督学习和无监督学习来解释聚类和分类之间的区别.因此,让我首先向您解释有关监督和无监督的关键词.
监督学习: 假设你有一个篮子,里面装满了新鲜水果,你的任务是在同一个地方安排相同类型的水果.假设水果是苹果,香蕉,樱桃和葡萄.所以你已经从你以前的作品中了解到每种水果的形状,因此很容易在同一个地方安排相同类型的水果.在这里,您之前的工作被称为数据挖掘中的训练数据.所以你已经从你训练过的数据中学到了东西,这是因为你有一个响应变量,它告诉你,如果某些水果具有如此特征,那就是葡萄,就像每个水果一样.
您将从训练过的数据中获得此类数据.这种类型的学习称为监督学习.这种类型解决问题属于分类.所以你已经学会了这些东西,这样你就可以自信地工作了.
无人监督: 假设你有一个篮子,里面装满了新鲜水果,你的任务是在同一个地方安排相同类型的水果.
这次你对这些水果一无所知,你第一次看到这些水果,你将如何安排相同类型的水果.
你首先要做的是你采取水果,你将选择该特定水果的任何物理特征.假设你采取了颜色.
然后你会根据颜色来安排它们,然后这些组会是这样的. RED COLOR GROUP:苹果和樱桃水果. GREEN COLOR GROUP:香蕉和葡萄.所以现在你将采用另一个物理角色作为大小,所以现在这些群体会是这样的. 红色和大尺寸:苹果. 红色和小尺寸:樱桃果实. 绿色和大尺寸:香蕉. 绿色和小尺寸:葡萄.工作做得很开心.
在这里你没有学到任何东西,意味着没有火车数据和没有响应变量.这种类型的学习是无监督学习.聚类是在无监督学习下进行的.
小智 18
+分类:您将获得一些新数据,您必须为它们设置新标签.
例如,公司希望对潜在客户进行分类.当新客户到来时,他们必须确定这是否是将要购买其产品的客户.
+聚类:你会得到一组历史交易,记录谁买了什么.
通过使用群集技术,您可以了解客户的细分.
Ami*_*eja 16
我相信很多人都听说过机器学习.你们中的十几个人甚至可能知道它是什么.你们中的一些人也可能使用机器学习算法.你看到这是怎么回事?很多人都不熟悉5年后绝对必要的技术.Siri是机器学习.亚马逊的Alexa是机器学习.广告和购物项目推荐系统是机器学习.让我们尝试用一个2岁男孩的简单类比来理解机器学习.只是为了好玩,我们叫他Kylo Ren
让我们假设Kylo Ren看到了一头大象.他的大脑会告诉他什么?(记住他具有最小的思维能力,即使他是维达的继任者).他的大脑会告诉他,他看到了一个灰色的大动物.他接下来看到一只猫,他的大脑告诉他,这是一个金色的小动物.最后,他接下来看到了一把轻剑,他的大脑告诉他,这是一个他可以玩的非生命物体!
在这一点上,他的大脑知道军刀与大象和猫不同,因为军刀是可以玩的东西,不会自行移动.即使Kylo不知道什么是可移动的意思,他的大脑也可以解决这个问题.这种简单的现象称为聚类.
机器学习只不过是这个过程的数学版本.许多研究统计数据的人意识到他们可以使一些方程式与大脑工作方式相同.大脑可以聚类相似的物体,大脑可以从错误中学习,大脑可以学会识别物体.
所有这些都可以用统计数据表示,并且基于计算机的这个过程的模拟称为机器学习.为什么我们需要基于计算机的模拟?因为计算机可以比人类大脑更快地完成数学计算.我很想进入机器学习的数学/统计部分但是你不想在没有先清除一些概念的情况下跳进去.
让我们回到Kylo Ren.让我们说Kylo拿起军刀并开始玩它.他不小心碰到了冲锋队,冲锋队受伤了.他不明白发生了什么,继续玩.接下来他打了一只猫,猫受伤了.这次Kylo肯定他做了一件坏事,并试图小心翼翼.但鉴于他糟糕的军刀技能,他击中了大象并且绝对确定他遇到了麻烦.此后他变得非常小心,只有在我们看到Force Awakens时才故意打击他的父亲!
从错误中学习的整个过程可以用方程模拟,其中做错事的感觉由错误或成本表示.这种识别与军刀无关的过程称为分类.聚类和分类是机器学习的绝对基础.让我们来看看它们之间的区别.
Kylo区分动物和光剑,因为他的大脑决定光剑不能自行移动,因此是不同的.该决定仅基于存在的对象(数据),并且未提供外部帮助或建议.与此形成对比的是,Kylo通过首先观察击中物体可以做什么来区分小剑的重要性.决定不是完全基于军刀,而是基于它可以对不同的物体做什么.简而言之,这里有一些帮助.
由于学习上的这种差异,聚类被称为无监督学习方法,而分类被称为监督学习方法.它们在机器学习领域非常不同,并且通常由存在的数据类型决定.获取标记数据(或帮助我们学习的东西,例如在Kylo案例中的冲锋队,大象和猫)通常并不容易,并且当要区分的数据很大时变得非常复杂.另一方面,没有标签的学习可能有它自己的缺点,比如不知道什么是标签.如果Kylo在没有任何例子或帮助的情况下学会小心佩戴军刀,他就不会知道它会做什么.他只会知道不应该这样做.这是一种蹩脚的比喻,但你明白了!
我们刚刚开始使用机器学习.分类本身可以是连续数字的分类或标签的分类.例如,如果Kylo必须对每个冲锋队的高度进行分类,那么会有很多答案,因为高度可以是5.0,5.01,5.011等.但是简单的分类就像光剑的类型(红色,蓝色.绿色)答案非常有限.事实上,它们可以用简单的数字表示.红色可以是0,蓝色可以是1,绿色可以是2.
如果您了解基本数学,则知道0,1,2和5.1,5.01,5.011是不同的,分别称为离散数和连续数.离散数的分类称为Logistic回归,连续数的分类称为回归.Logistic回归也称为分类分类,所以当你在别处读到这个术语时不要混淆
这是机器学习的一个非常基本的介绍.我将在下一篇文章中讨论统计方面的问题.如果我需要更正,请告诉我:)
第二部分发布在这里.
基于从示例中学习,是否将预定义类分配给新观察.
这是机器学习的关键任务之一.
虽然被普遍认为是"无监督分类",但却完全不同.
与许多机器学习者将教给你的东西相反,它不是为对象分配"类",而是没有预先定义它们.对于进行过多分类的人来说,这是非常有限的观点; 一个典型的例子,如果你有锤子(分类器),一切看起来像钉子(分类问题)给你.但这也是为什么分类人员没有掌握群集的原因.
相反,将其视为结构发现.聚类的任务是在数据中找到您之前不知道的结构(例如组).如果你学到了新东西,聚类就会成功.它失败了,如果你只有你已经知道的结构.
聚类分析是数据挖掘(以及机器学习中的丑小鸭)的关键任务,所以不要听机器学习者解散聚类.
这已经在文献中反复出现,但无监督学习也是如此.它不存在,但它是像"军事情报"那样的矛盾.
要么算法从示例中学习(然后是"监督学习"),要么学习.如果所有聚类方法都是"学习",则计算数据集的最小值,最大值和平均值也是"无监督学习".然后任何计算"学习"其输出.因此,"无监督学习"一词完全没有意义,它意味着一切,没有任何意义.
然而,一些"无监督学习"算法确实属于优化类别.例如,k-means 是最小二乘优化.这些方法都是统计数据,因此我认为我们不需要将它们标记为"无监督学习",而应继续将它们称为"优化问题".它更精确,更有意义.有许多聚类算法不涉及优化,并且不适合机器学习范例.因此,在"无监督学习"的保护伞下停止挤压它们.
有一些与聚类相关的"学习",但它不是学习的程序.用户应该学习有关其数据集的新内容.