任何人从cloudera实施或研究黑斑羚？

Question

Hadoop技术对我来说非常混乱(Hbase,flume,oozie,scoop,zookeeper,Hive,hue,Bigtop,pig)以及现在它的黑斑羚.有人可以定义它们是如何集成的吗？(我是一个信息开发人员,对Java的知识很少)至少是数据软件的外壳!

Answer 1

最好是尝试了解每个项目的具体内容.大多数人不需要全部使用它们.

HDFS:分布式文件系统.它接收文件,将它们分成块,并在集群中分发这些文件.它复制这些块以实现冗余,并使数据保持接近可能在作业中分析的位置.它通常直接用于存储非结构化数据,如日志和文本.

MapReduce:用于运行并行程序的编程模型和一组软件工具."YARN"是一个更新的想法,允许其他程序在Hadoop集群中执行,以及最新版本的"MapReduce"或在此"YARN"集群上运行的程序.这里有很多东西要解释,你可能基本上熟悉它,所以我会继续......

HBase:一种非关系型数据库,它将数据保存到HDFS,其结构类似于Google的BigTable.它将数据存储在内存中,以提供近实时查找和实时服务.它经常被用来代替将HDFS直接用于结构化数据,就像网站的用户一样.

Flume:用于管理数据(例如日志)的工具,因为它不断地输入HDFS.

Oozie:一种用于在MapReduce作业序列中构建更复杂作业的工具.

Sqoop:用于在HDFS和关系数据库之间导入/导出数据的工具.它通过编译要执行到MapReduce作业的作业来完成此操作.

Zookeeper:"集群协调服务".我认为这是一个分层文件系统(对于相对较小的数据块),它允许您构建群集范围的互斥锁,获取更改通知等.这可能很难解释,但它基本上为您提供了一组操作可以用来在集群中构建相当复杂的协调机制.HBase为此目的使用Zookeeper.

Hive:一种将类似SQL的查询转换为MapReduce作业的工具.(Pig是一个类似的想法 - 它是一种编译成MapReduce作业的编程语言).

Hue:"Hue用户体验" - 它是一个基于浏览器的UI,用于使用像Hue这样的Hadoop工具.它也是由Cloudera制作的,但与Cloudera Manager等用于管理集群的工具不同,而不是自己使用服务.

Bigtop:以各种方式打包hadoop生态系统的许多组件和类似工具(例如,用于Linux的DEB和RPM,用于部署Hadoop的Puppet代码,甚至是Live CD).它实际上旨在开始简化和标准化您所指的"集成".

Pig:与Hive类似的想法 - 一种编译成MapReduce作业的编程语言.

Impala:一种使用类似SQL的查询在Hadoop中探索数据的工具.作为支持比Hive更简单的查询语言而不使用MapReduce(用于大批量作业)的交换,它应该足够快地进行查询以交互式地探索大型数据集.