Kar*_*ian 6 hadoop hue oozie hadoop-yarn
我理解HDFS和Map Reduce的概念以及如何将处理逻辑移动到数据以提高效率.我甚至能够在我的基本Hadoop集群上运行几个map reduce工作.围绕这些概念有许多不同的技术,如YARN,HUE,OOZIE,所有这些技术似乎都做同样的事情(至少从非常高的层次),即作业的操作可视性和CRUD能力(可以是map-reduce或者是其他东西).
我是否正确地做出这个假设,或者它们之间是否存在更为根本的区别?
谢谢凯
YARN - Map Reduce是您必须在其中实现数据处理逻辑的API.编译代码后,您必须使用hadoop jar
命令提交作业.YARN是一个框架,它将跟踪资源,在集群上提交作业,执行作业,显示/记录进度.
OOZIE - 采用数据集成示例.您可能必须从一个数据库获取数据集,从其他数据库获取其他数据集,然后您要加入,处理数据并将其重新加载到缓存或第三个数据库中.它涉及2个sqoop作业从数据库中提取数据,hive/map reduce作业加入和处理数据,然后进入缓存/数据库.所有这些工作都相互依赖,例如:我们应该只在从源数据库中提取数据后处理数据.因此,我们需要创建一个工作流来执行完整的数据集成过程.OOZIE可以促进这一点.它是基于地图缩减的工作流程工具.它自己的工作流将作为一个或多个地图减少作业来执行.
HUE:Hadoop中有许多工具 - HDFS(文件系统),Sqoop,Hive/pig来处理数据,Impala,HBase等等.要执行POC,连接到群集可能会很繁琐.它还需要一些Linux技能.为了克服这些挑战,所有Hadoop生态系统工具都在一个伞下整合 - 称为Hue.
归档时间: |
|
查看次数: |
3118 次 |
最近记录: |