Des*_*PRG 22 hadoop machine-learning data-mining bigdata data-science
正如维基百科所述
数据挖掘过程的总体目标是从数据集中提取信息并将其转换为可理解的结构以供进一步使用
这与大数据有什么关系?如果我说Hadoop以并行方式进行数据挖掘,这是否正确?
Ano*_*sse 59
大数据是一个营销术语,而不是技术术语.如今,一切都是大数据.我的USB棒现在是一个"个人云",我的硬盘是大数据.认真.这是一个完全不明确的术语,很大程度上取决于各个非常乐观的公司的营销部门可以出售什么 - 以及主要公司购买的C*Os,以便实现魔术.更新:到目前为止,这同样适用于数据科学.这只是营销.
实际上,数据挖掘过度使用......它可能意味着任何事情
只是营销需要一个新术语."商业智能","商业分析",......他们仍在继续销售同样的东西,它现在被重新命名为"大数据".
由于大多数方法 - 至少那些给出有趣结果的方法 - 只是不扩展,大多数"挖掘"的数据实际上并不大.它显然比10年前大得多,但不像Exabytes那么大.KDnuggets的一项调查显示,1-10 GB是平均"分析的最大数据集".这不是任何数据管理手段的大数据; 它只能通过使用复杂方法进行分析来实现.(我不是在谈论像k-means那样的琐碎算法).
现在"大数据"是真实的.谷歌拥有大数据,而欧洲核子研究中心也拥有大数据.其他大多数人可能没有.当您只需要1000台计算机来存储数据时,数据就会变得很大.
Hadoop等大数据技术也是真实的.它们并不总是合理使用(不要费心去运行少于100个节点的hadoop集群 - 因为这一点你可以从精心挑选的非集群机器中获得更好的性能),但当然人们会编写这样的软件.
但是,大部分工作都不是数据挖掘.它是Extract,Transform,Load(ETL),因此它正在取代数据仓库.而不是使用具有结构,索引和加速查询的数据库,数据只是被转储到hadoop中,当你弄清楚要做什么时,你重新读取所有数据并提取你真正需要的信息,转换它,以及将其加载到您的Excel电子表格中.因为在选择,提取和转换之后,通常它不再是"大".
许多大数据的营销承诺都无法实现.对大多数公司而言,Twitter产生的洞察力远远超过广告(除非你是摇滚明星,否则就是这样); Twitter的用户群严重偏向.纠正这种偏见很难,需要经验丰富的统计人员.
来自数据的偏差是一个问题 - 如果您只是从互联网或应用程序中收集一些随机数据,它通常不具代表性; 特别是不是潜在用户.相反,如果你没有设法抵消这些影响,你将过度使用现有的重度用户.
另一个大问题是噪音.你有垃圾邮件机器人,但也有其他工具(认为Twitter"趋势主题"导致强化"趋势"),使数据比其他来源更加强大.清理这些数据很难,而不是技术问题,而是统计领域的专业知识.例如,谷歌流感趋势被反复发现是相当不准确的.它在早些时候有些工作(也许是因为过度拟合?)但质量不高.
不幸的是,许多大数据用户对此很少关注; 这可能是大多数大数据项目似乎失败的原因之一(其他大多数是无法管理,夸大和不切实际的期望,缺乏公司文化和技术人员).
现在是你问题的第二部分.Hadoop不进行数据挖掘.Hadoop管理数据存储(通过HDFS,一种非常原始的分布式数据库)并调度计算任务,允许您在存储数据的相同机器上运行计算.它没有做任何复杂的分析.
有一些工具试图将数据挖掘引入Hadoop.特别是,Apache Mahout可以被称为官方Apache尝试在Hadoop上进行数据挖掘.除了它主要是一个机器学习工具(机器学习!=数据挖掘;数据挖掘有时使用机器学习的方法).Mahout的某些部分(例如聚类)远非先进.问题是Hadoop适用于线性问题,但大多数数据挖掘不是线性的.而非线性算法不仅可以扩展到大数据; 你需要仔细开发线性时间近似值并且精度损失 - 损失必须小于仅通过处理较小数据而损失的损失.
这种权衡问题的一个很好的例子就是k-means.K-means实际上是一个(大多数)线性问题; 所以它可以在Hadoop上运行一些.单个迭代是线性的,如果你有一个很好的实现,它可以很好地扩展到大数据.但是,直到收敛的迭代次数也随着数据集大小而增加,因此它不是真正的线性.但是,由于这是一种查找"均值"的统计方法,因此数据集大小的结果实际上并没有太大改善.因此,虽然你可以在大数据上运行k-means,但它并没有多大意义 - 你可以只取一个数据样本,运行一个高效的单节点版本的k-means,结果将是同样好.因为额外的数据只是为您提供了一些精确值的额外数字,您不需要那么精确.
由于这适用于很多问题,Hadoop上的实际数据挖掘似乎并没有开始.每个人都试图这样做,很多公司都会出售这些东西.但它并没有比非大版本更好地工作.但只要客户想要购买此产品,公司就会销售此功能.只要它能获得资助,研究人员就会就此发表论文.是否有效.这就是生活.
在某些情况下,这些事情是有效的.谷歌搜索就是一个例子,而Cern.但是,图像识别(但不使用Hadoop,GPU集群似乎是去那里的方式)最近受益于数据量的增加.但在任何这些情况下,您都拥有相当干净的数据.谷歌索引一切; Cern丢弃任何非有趣的数据,只分析有趣的测量结果 - 没有垃圾邮件发送者将他们的垃圾邮件送到Cern ......在图像分析中,你训练预先选择的相关图像,而不是说网络摄像头或来自互联网的随机图像(和如果是这样,你将它们视为随机图像,而不是代表性数据).